第 开 部 分 A 法 


非 线性 规划 的 实际 兴趣 ， 集 中 在 有 效 地 找 出 给 定 问题 的 数值 
解 . 单纯 形 方 法 在 线性 规划 中 起 着 普遍 适用 的 作用 ,与 这 种 情况 
相反 ， 对 于 获得 非 线 性 规划 的 最 优 解 来 说 ， 还 没有 这 种 统一 的 处 
E, 这 样 ,单纯 形 方 法 能 够 有 效 地 解 仿 有 几 千 个 变量 和 几 百 个 约 
束 的 线性 规划 问题 ， 而 如 何 求解 少数 变量 的 无 约束 非 线 性 函数 的 
极 小 化 问题 ， 却 仍 是 许多 学 者 关切 的 一 个 重要 问题。 从 算法 观点 
来 研究 无 约束 最 优化 , 将 是 第 开 部 分 前 四 章 的 主题 . 

我 们 从 单 变量 实 范 数 极 小 化 的 最 简单 情形 开始 . 然后 , 我 们 
提出 不 用 导数 的 方法 , 也 就 是 说 , 提出 一 些 寻 找 极 值 的 算法 , 而 不 
Al FA et PAR AR A SM. 这 些 方法 是 重要 的 , 因为 在 大 
多 数 实际 应 用 中 , 导数 或 者 是 不 能 使 用 的 , 或 者 是 难于 计算 的 .不 
理想 的 是 , 对 于 这 种 问题 所 设计 的 现 有 方法 不 是 那么 有 效 , 所 以 在 
这 个 领域 还 有 许多 工作 要 做 另 一 方面 1960 年 以 来 , 在 发 展 无 
约束 最 优化 问题 的 带 有 导数 的 有 效 算法 方面 , 出 现 了 重大 进展 . 在 
利用 新 一 代 计 算 机 的 某 些 平 行 计 算 特 征 而 设计 数值 方法 方面 ， 其 
最 初步 又 也 将 在 这 里 提 到 . 

无 约束 最 优化 方法 的 研究 是 重要 的 ， 因 为 求解 约束 非 线 性 规 
划 问 题 的 最 成 功 的 一 类 算法 是 惩罚 方法 ， 它 基于 将 约束 问题 转化 
为 无 约 东 问题 ， 另 一 些 方法 直接 地 处 理 约束 , 它 考虑 到 约束 , 以 修 
正 从 变量 空间 中 的 一 个 点 到 为 一 个 点 的 移动 、 最 后 三 章 研 究 约束 
最 优化 , 以 结束 本 书 的 第 二 部 分 . 


第 8 & 
一 维 最 优化 


这 一 章 集 中 研究 的 问题 是 ， 对 实 直线 如 或 瑟 的 某 一 子 集 上 
的 单 变量 函数 f， 寻找 它 的 极 小 值 ,在 这 一 章 中 单独 地 讨论 一 维 最 
优化 , 这 蚌 有 几 个 理由 的 . BE, ÆRE 上 无 约束 最 优化 的 某 些 埋 
论 彰 党 和 数值 党 景 能 方便 地 用 一 维 捷 形 来 说 月 ; 其 次 , 对 单 变量 范 
数 的 一 些 有 趣 的 搜索 方法 显然 不 能 完整 地 推广 到 在 R EFRA 
数 极 值 的 问题 ; 最 后 , 维 问题 的 某 此 迭代 方法 包含 了 在 R PY 
某 些 方向 寻找 极 值 的 步 又， 而 这 些 步 骤 实 际 上 等 价 于 一 维 最 优 
化 . 

因此 , 我 们 研究 单个 实 变量 s 的 实 函 数 了 的 极 小 化 操 题 . 在 
第 二 章 中 我 们 已 经 看 到 ， 如 果 了 在 w* 取得 局 部 极 值 且 如 果 在 w'* 
可 以 微分 那么 了 的 一 阶 导 数 在 e 必须 等 于 零 ， 即 局 部 极 值 点 是 
下 列 方程 的 解 ; 

f'(x) =0, (8.1) 

我 们 可 以 尝试 去 求解 这 个 一 般 的 非 线 性 方程 ， 香 到 它 的 所 有 
解 , 如 果 局 部 极 小 值 点 存在 , 则 必 在 这 些 解 中 间 。 如 果 了 的 二 阶 导 
数 亦 可 用 ,那么 在 (3. 的 解 处 计算 7" 的 值 , 我们 通常 就 能 决定 哪 
一 些 解 对 应 于 极 小 . 

我 们 将 讨论 沿 一 条 直线 ( 即 一 维 ) 寻 找 实 值 栈 数 极 小 值 点 的 三 
种 方法 .首先 是 用 于 求解 (8.1) 的 Newton 法 和 某 些 有 关 方 法 . 第 
二 种 方法 是 用 低 阶 (通常 林 超 过 三 阶 ) 多 项 式 逼 近 村 求 极 小 的 范 
数 ， 于 是 , 多 项 式 的 极 小 可 用 分 析 的 方法 求 得 , 同时 又 能 得 到 一 个 
新 的 近似 多 项 式 。 继续 这 个 方法 , 我 们 能 得 到 极 小 值 点 真实 位 置 
的 近似 值 . 单 变 量 孙 数 的 第 三 种 优选 法 属于 “直接 法 ”、 这 里 , 在 
它 的 定义 城中 不 全 点 的 函数 值 按 照 某 种 系统 的 办 法 进行 计算 ， 同 
时 , 根据 这 些 蚂 数 的 取 值 和 茶 些 适当 的 假设 , 我 们 可 以 使 极 小 值 点 

£ 


的 位 置 划 入 某 一 个 小 区 域内 . 
8.1 Newton 法 


在 多 数 情 况 下 , 无 法 求 得 方程 (8.14 的 解析 解 , 所 以 这 个 方程 
必须 采用 茶 个 近代 法 求解 , 这 个 方法 产生 点 列 {2 嘻 和 导数 值 序列 
{flw"”)}， 使 得 导数 值 序列 的 极限 为 零 。 解 非 线 性 方程 的 经 典 方 
法 是 Nowton 法 , 在 这 里 这 个 方法 要 求知 道 二 阶 导 数 . 户 (o) 的 值 ， 
Newton 法 的 思想 是 , 设 个 是 (8.1) 的 解 的 猜测 点 , 在 2 的 附近 使 
S 线性 化 , 并 且 求 得 使 这 个 线性 阔 数 为 零 的 点 。 这 个 点 就 是 下 一 
AB oO, ERE, 令 2 为 了 (vw) 一 0 的 解 的 当前 猜测 点 . 线 
性 方程 


F'O HF" O) wa) =0 (8.2) 
的 根 为 
ktl yk. Fie 
a 2 一 有 0， (8.3) 


SPATE BER 8.1 PB, 


f(x) 


&8.1 Newton 法 


我 们 现在 证 明 , 在 适当 的 假设 于, 由 上 述 公 式 产生 的 点 列 { 
WRF (8.1) 的 一 个 解 ， 下 面 关于 Newton 法 的 讨论 完全 仿照 
Goldstein 的 工作 ""， 在 他 的 著作 中 读者 能 够 看 到 更 完全 的 分 析 . 

设 S=L4, bD] 龙 实 直线 上 的 一 个 闭 区 癌 ， 中 是 点 上 的 连续 实 
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MA. MEET PR. MRICS, Bad PAKS BAD 
的 瑞 射 ， 如 果 点 LES, 使 得 四 (2) =o, Wo KA PWR A. 如 
果 存 在 一 个 正 数 9<1, 使 得 对 于 S 中 任何 两 点 各 Bo, 成 立 
|p (at) — f(a?) | <g]a*—a?l, (8.4) 
那么 从 S 到 自身 的 映射 罗 称 为 压缩 映射 。 这 和 样 , 我 们 有 如 下 预备 
性 结果 . 
引 理 8.1 
假设 在 S~[a,，8]CR 上 是 压缩 映射 Hees, A= 
pia), 那么 , 存在 加 的 唯一 不 动 点 5, 序列 {o"} WM oo, HE E 
Jati r| < (g0) ttie- r], k=O, 1, ---. (8.5) 
【证 明 】 H SRRA A STEM ORB PA 
a. WES 


[r-r] = | f(a) pæ) gjete], (8.6) 
因此 , 4 k=0 m (8.5) Mr. 假设 当下 之 1 时 (8.5) 成 立 . 那么 
| 一 人 | < (g), (8.7) 


H (8.6) (8.7), 4% 
[25T] = |p") —b(@) | gies a] 
<(q)¥t?|a°—z], (8.8) 
这 样 (8.5) 对 任意 一 0, 1, … 成 立 ， 因 为 9<1， 所 以 公式 (8.5) 
AMPA CMA c. 最后, 必须 指出 < 是 唯一 的 ， 假设 有 两 个 
不 同 的 不 动 点 下 各 那么 
0<|z'—2*| = P-e | gje], (8.9) 
因为 4<1, 上 式 是 一 个 矛盾 . 1 
下 面 的 引 理 给 出 $9 是 压缩 映射 的 充分 条 件 . 
引 理 8.2 
假设 上 5 将 5S 一 [4，5]CCR 映射 到 自身 ， 并 设 4$ 在 S 上 具有 连 
续 导数 ， 如 果 对 于 每 一 个 2E8 有 | 内 (2)| <1， 那 么 四 是 压缩 映 
射 . 
CEH] ke SV RS PRERAA, 那么 由 中 值 定理 ”， 
b(a*) =p) 十 由 (2) a’), (8.10) 


其 中 是 好 与 如 之 间 的 某 一 点 ， 因 此 ， 

IE) 一 由 (92) | = |b’ (x) | atal, (8.11) 
同时 由 p 的 假设 , RIR g 等 于 | 办 (ec) | 在 S 上 的 最 大 值 , 就 知道 
ptt He SA. 了 

借助 于 这 两 个 引 理 ， 我 们 能 证 明 关于 某 些 求 根 方法 收敛 性 的 


一 个 一 般 结果 . 
定理 8.3 
设 有 和 7 是 S=[4, DER EREATARA. Bi 
hia}h(b) <0, (8.12) 
癌 时 对 于 一 切 re 8, 4 
y(x)>0, hi(a)>0, (8.13) 
0<1—[y(a@)A(2)}'<¢<l. (8.14) 
SPEK, A 
atta yr hr), k=O, 1, =, (8.15) 
BAF {a} RF h(a) =O WR e, 
【证 明 】 + 
p(t) =7—y(ah(a), (8.16) 
f(z) =i iraka, (8.17) 
M(8.14) A, 对 于 一 切 Es, 有 
Oxe (2) <g<1, (8.18) 


并 且 $ 在 SS 上 是 单调 非 碱 的 、 由 (8.12) 和 (8.18) 可 知 , ÆSER 
是 单调 增加 的 ,并 且 h(8) <0, Ab) >O., Ai b(a) >a, pi, 
Hd WIRD ERE, HTH ES Ha<d(a)<b. Ao HS 
RNAS, Sb i'e) | <1, 由 下 理 8.2 MMR SES LEE 
缩 的 ， M(8.15)Al(8.16) 8 r= b(a"), k—=0, 1, …。 利用 下 
理 8.1， 史 有 唯一 的 不 动 点 2ES， 最 后 , 注意 到 当 且 仅 当 (4%) =0 
时 z 才 是 由 的 不 动 点 ， 因 此 , EAF ke) =0 的 解 ， 3 

现在 我 们 能 够 阐明 上 述 Newton 法 收敛 的 充分 条 件 ， 

推论 8.& 

Bh) =f (2), ye) =1/f" (2), AH Ff E S =la, 5] 上 的 三 

ä 


EAE i PR Ae, ABLE AR REEE 8.8 中 给 出 的 关于 如 和 7 的 假设 是 
成 立 的 . 那么 (8.15) 就 是 Newton LAMAR, Je Loar 
了 的 不 动 点 . 
[HEM] FEM ERS SHEE, J 
TE, LRAT YURRE ES .上 是 严格 凸 的 (相当 
强 的 假设 )。 虽然 条 件 包含 了 的 三 阶 导数 ,但 在 算法 中 是 不 用 的 . 
除了 证 明 某 -- 算 法 的 收敛 性 外 , 知道 收敛 速率 也 是 重要 的 . 候 
定 存在 一 序列 {0}, @ CR, WHE A T, 并 且 对 于 所 有 充分 大 的 
kA ok he, 如 果 存 在 一 个 数 交 和 oO, 使 得 
Ne ee (8.19) 
knee at — a)? 
那么 Pp 称 为 序列 好 9 MSY, Jetel PR HS RU TRE, 
WR p= 1, 序列 {o 的 收敛 速率 称 为 是 线性 的 ， 如 果 pol, BBA 
收敛 速率 称 为 是 超 线性 的 ， 对 于 p=2 的 特殊 情况 , 收 放 速率 称 为 
二 阶 的 。 线性 收敛 的 更 一 - 般 的 概念 如 下 ， 存 在 一 个 自然 数 K, 
UEZ eH g He O<¢<1, 并 且 满 足 


和 一 Be k= K, K+1, -, (8.20) 
(8.19) 3 Wh) RARE Re OR PE RE EO 
lim 12 at o, (8.21) 
kee a — i 
于 是 我 们 有 下 面 的 定理 . 
定理 8,65 


假设 定理 8.3 和 推论 8.4 的 假设 成 立 ， 由 Newton 法 产生 的 
序列 {a*}, a ER, KATA a, PRA) 一 0, 那么 收敛 的 速率 
是 二 阶 的 . 

【证明 】 当 且 仅 当 2 是 

hie). 


(ak) = =g" =< jC ESI 


的 不 动 点 时 , R E T h(w) =0. HRI, 
a+! — e= o(a) — pE) =p (E) e), (8.28) 


(8.22) 


Hope’ Feat Gerth, FE 


k+ _ r [A (Eh EY) | 
la z| = ESP Jot -el (8.24) 


同时 ， 
(ACE) | = [ED hw) | = [E OE —z| 
<I (e-e, (8.25) 
Rh y AFE Se Zia, Ae 


+1 ANCE) A Cy) z|? 
mia yates (8.26) 


Hee ek ee, 
B= sup ap LE NGL eae ; (8.27) 
那么 , 
[oti—z| < Bl at—a}?, (8.28) 
即 48.19) 成 立 . 了 
FA 22 FS HE EE A BY a ef" æ) 


Pa Lo wa it (8.29) 


人 fF ESA (8.3), 得 到 基线 
RE ERA 

nt ov Sf a 30 

TOTE POF OY er 
BE BE HO”, HARA 

lim |æ 


ea. AR (8.31) 


Eca ja*— a(t ! FOCE) ? 


其 中 假设 1" 不 为 零 ,同时 z= (14+ MB5)/2 2 1.618 是 方程 P= 
t+ 的 解 。 因 此 , 对 于 充分 大 的 割 线 法 是 近似 于 1.618 阶 的 超 
线性 方法 ， 这 里 有 趣 的 是 要 注意 , 联系 着 另 一 个 一 维 最 优化 方法 ， 
数 7 在 本 章 以 后 部 分 中 将 再 次 出 现 . 


图 8.2 WRA 


也 许 提醒 下 列 一 点 是 合适 前 ;通过 前 面 定 义 的 收敛 速率 来 比 
较 两 种 算法 , 是 可 能 会 引起 误解 的 、 例 如 , 割 线 法 的 渐 近 收敛 速率 
7 古 关 于 函数 赋值 一 次 的 ， 因 为 在 每 次 迭代 中 需要 求 根 的 函数 只 
计算 一 次 ， 另 一 方面 , Newton 法 的 二 阶 收敛 速率 是 关于 函数 赋值 
两 次 的 ,因为 在 每 次 欠 代 中 冰 数 及 其 一 阶 导数 均 必 须 赋 值 . 


8.2 ”多项式 通 近 法 


下 面 将 研究 两 种 最 广泛 采用 的 多 项 式 有 逼近 方法 ， 即 二 次 方法 
和 三 次 方法 ， 二 次 方法 的 基础 是 用 二 次 函数 办 反 近 要 寻求 极 小 的 
AA F, 函数 中 由 下 式 给 出 : 
pla) =a+ba+e(a)3, (8.32) 
这 时 假定 在 三 个 点 a, a 和 ww RATA S E, SR ot <a? <a’, 
现 令 mkoD 一 f(w')， 而 =1，2，3, 我 们 能 解 得 系数 &, 5 和 
tc， 二 次 阔 数 下 的 极 小 值 点 (如 果 它 存在 极 小 的 话 ) 能 解析 地 从 
p(w) 一 0 求 得, 并 且 ,， 作 为 了 的 极 小 值 点 的 第 一 次 逼近 , 我 们 得 到 
AZO, 


3 二 -之 ， (8.33) 


此 处 假定 e>0. 如 果 e<0, 二 次 函数 实际 上 是 具有 极 大 值 的 抛物 
线 , 因而 求 得 的 点 元 是 不 能 用 的 ， 能 保证 。 是正 的 一 种 情况 是 
FSF 和 f(@)<f@*), (8,34) 


如 果 上 式 成 立 ， 我 们 就 能 确信 ,了 了 的 一 个 局 部 极 小 值 点 已 划 入 ct 
与 2 之 间 ， 因 而 这 样 的 划 界 是 非常 合适 的 , 我们 很 快 将 介绍 这 样 
做 的 步骤 , 但 是 先 继续 讨 论 二 次 方法 ,这 里 假定 (8.34) 蚌 满足 的 . 
这 样 求 得 的 少 的 极 小 值 点 也 满足 
f(e)>d@ A PEF). (8.35) 
同时 , 我 们 能 够 找 出 新 的 二 次 通 近 和 近似 极 小 值 点 , 办 法 是 选择 三 
点 的 新 集合 如 下 :计算 值 j3)， 并 从 计算 了 值 的 四 个 点 中 选取 一 
个 使 了 值 取 最 小 的 点 作为 新 的 4? (新 ?或 者 是 或 者 是 “I 旧 ” 的 
a), Seo Ae 各 是 新 的 吧 近 旁 堪 右 两 个 点 , BRB. Y 
在 预测 的 极 小 慎 点 的 疾 实 函数 值 和 逼近 函数 值 之 差 小 于 某 一 容许 
的 e>O mt, 也 就 是 如 果 
\f (@) 一 由 (元 ) | <a, (8.36) 
或 者 当 两 个 或 更 多 个 相继 过 代 的 极 小 值 点 之 间距 离 小 于 某 一 预先 
给 定 的 距离 时 , 这 个 算法 就 终结 ， 然 而 , 对 于 上 述 二 次 逼近 法 , 即 
使 不 等 式 (8.34) 满 足 , 至 少 有 -一 种 情况 它 不 能 收敛 于 了 的 极 小 .如 
果 ô=, Bia? 可 能 不 是 下 的 局 部 极 小 值 点 ， 算 法 也 不 产生 新 
A. 在 这 种 退化 情况 下 ， 为 了 继续 进行 计算 ， 需 要 使 分 作 某 种 扰 
动 . 
不 等 式 (8.34) 对 于 预测 中 的 极 小 是 充分 的 (除了 在 退化 情况 
外 )， 但 如 (8.34) 不 成 立 ， 也 能 预测 这 样 一 个 极 小 。 例如 ， 如 果 
FDSFDS, FAS@ MERE SOAS) 的 直线 
BE FI, HA BORE AT EE i>e 处 具有 极 小 .然而 ， 
这 个 要 预测 的 极 小 可 能 离开 第 一 次 三 个 点 的 右边 很 远 ， 以 致 用 内 
来 近似 了 可 能 是 很 差 的 ， 如 果 预 测 的 极 小 出 现 这 种 外 推 前 情形 ， 
只 要 引入 极 大 步 长 , 便 可 以 克服 这 个 困难 . BAH, A, 2%, 
za 是 可 能 离 y 的 极 小 很 远 的 ， 因 此 这 种 用 外 推 求 由 的 极 小 值 点 能 
EAR 
要 求 出 王 点 使 得 (8.34) 得 到 满足 的 划 界 方法 叙述 如 下 ， 选 择 
任 一 初始 点 SR FO). 其 次 ， 在 点 2 十 如 算出 了 的 数值 ， 
其 中 Wi >O 是 某 一 预先 给 定 的 步 长 ， 如 时 


F(a) > fF (+h), (8.37) 
& ome th, RPh oY 为 新 的 步 长 ， 其 中 91， 现存 计算 
Fath), me : 
FDF Hh, (8.38) 
aaa tht A ak. 继续 这 个 办 法 , 直到 了 在 最 新 达到 的 点 
a +h* ERT SC”). 
QR (8.37) PUR, 4 at =2° Al ht ~ Bh, Herp 0O<B<1, 
算出 数值 fe +h). RR 
flat+th)>f (oe), (8.39) 
我 们 就 结束 ， 因 为 要 划 的 区 间 [2° Bh, oO +A BABE. Ail, 
Few th, Poaki FAA fle +h?), MIRAE PA, HB 
数 出 现 增加 不论 怎样 , 最 后 得 到 的 三 点 将 满足 (8.384), 于 是 二 次 
方法 就 能 开始 .a 和 8 的 值 宁 可 选 得 使 we<1， 应 该 指出 ， 划 界 
过 程 本 身 就 能 作为 确定 极 小 值 点 的 方法 . 
在 图 8.8 中 前 明了 上 述 情 况 , 每 当 获 得 函数 增加 , 就 颠倒 搜索 
方 品 《小 箭头 由 第 次 函数 值 指 向 下 一 次 函数 值 )、 在 图 中 采用 


a 一 2，p 一 地 ,同时 已 做 了 11 个 西数 值 计算 ， 关 于 这 个 方法 的 网 


节 , 读者 可 参考 [12]， 注 意 ， 如果 函 数 f 的 一 阶 导 数 已 知 ， 则 二 次 
方法 和 划 界 方法 均 能 修正 和 改善 . 
下 面 研 究 的 多 项 式 扣 近 方 法 是 三 次 方法 ， 这 方法 采用 三 阶 多 


Six) 


E83 用 划 界 法 求 函 数 极 小 
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项 式 
P(e) =a+bate(ay+d(a)* (8.40) 
SK GE POR AR AD Ae RF. 这 里 介绍 的 方法 原来 向 Davidon'9 
导出 、 算法 基于 假设 子 的 一 阶 导 数 是 可 用 的 , 但 这 种 方法 也 能 容 
易 地 修改 使 之 不 必 计 算 导 数 . 从 任意 点 ot CR HH, UH Fo), 
天 (2) 假定 产 (w 中 是 负 的 ,那么 我 们 通过 某 一 个 迭代 过 程 找 一 点 
aw, ata, EFS (oe) Jet AR fe) >f (a), Ria, b, ¢ 
和 4 能 从 求解 下 列 四 个 变量 四 个 线性 方程 的 方程 组 而 得 到 . 
F(a?) = atbela) tdl, 
f'(a) =b + 2er + 8d Ca"), 
f) =at betel yH dia), 
F' (@") =b 4+ 2e + dap) 
Davidon 发 现 这 些 方程 的 解 能 够 通过 简单 的 变量 代 换 迅速 求 H. 
用 下 烈 方程 定义 一 个 新 的 变量 2 MBH aR g Mo, 
z=% Wl, (8.42) 
g= atz), bz) =p! +2), (8.43) 
那么 三 次 函数 由 关于 “ 的 一 阶 导数 为 
Y= gO) (y'0) a) +425 gO) + (A) +20), 


(8.41) 


KA)? 
(8,44) 
Eh =g, A 
Pen Slo 9] + 90) +g A), (8.45) 
ERIE (2), 也 就 是 预测 为 极 小 的 点 % 由 下 式 给 出 ， 
0 (8.46) 
其 中 | 
B= FA tL -g Og A a (8.47) 


A AY — 9 O) £27 Ca)? — 9! (Og (A) 
设 8 是 某 一 个 预先 给 定 的 容许 值 ， 如 果 fg (2) | 二 sas， 那么 过 程 结 
Rl, 否则 算法 必须 采用 新 的 两 个 点 重复 进行 , 两 点 的 选取 方法 类 似 
守 忆 介绍 的 二 次 逼近 方法 。 三 次 通 近 方法 中 每 次 友 代 的 收敛 速率 


i 


通常 出 二 次 方法 要 快 . 然而 , 三 次 方法 中 每 次 选 代 所 需 的 计算 最 
比较 大 . 

对 于 寻找 有 适当 好 性 质 "的 函数 的 极 小 值 点 一 一 即 这 种 函数 
能 用 二 次 或 三 次 函数 适当 接近 地 近似 (在 某 种 意义 下 ) 一 一 多 项 式 
通 近 方法 似乎 是 十 分 有 效 的 ， 这 些 算法 的 效率 在 很 大 程度 上 依赖 
于 要 寻找 极 小 的 其 体 函 数 ， 下 面 介绍 的 方法 寻找 实 直线 上 的 小 区 
间 ， 在 此 区 间 上 包含 单 蜂 函数 (定义 见 下 面 ) 的 极 小 值 点 ， 有趣 的 
是 ， 不 管 求 裤 小 的 是 哪 一 种 具体 的 一 维 函 数 ， 只 要 展 于 单 峰 函 数 
类 , 这 些 方法 的 效率 将 证 明 都 是 相同 的 . 


8.3 直接 法 Fibonacci 法 和 黄金 分 割 法 


我 们 从 定义 单 蜂 治 数 开 始 ， 它 对 建立 下 面 介 绍 的 方法 的 收敛 
性 和 有 最 优 性 都 是 非常 重要 的 .一 个 实 信函 数 了 称 为 在 财 区 出 
LCR ERS), WR E+ E L, RB OB SHEL LR 
小 值 点 , 而 且 对 于 任意 两 点 只 E 了 工 PCL, alco’, 我 们 有 
we 蕴涵 f(a) >f(2*), | 
oxe Bm f(a") >f (a, 
TE, 单 峰 函数 不 一 定 是 连续 的 或 可 微 的 。 PR ARH 
推广 都 十 单 峰 函 数 . 单 峰 函数 的 一 些 例 子 如 图 8.4 所 示 . 


ANY 


AS4 单 峰 函数 


(8.48) 


在 下 述 方法 中 将 充分 利用 单 峰 范 数 的 一 个 非常 有 用 的 性 质 : 
通过 在 荆 内 相 异 两 点 计算 也 数值 , 就 可 以 划 定 极 小 的 位 置 。 分 别 
Ly Fl rs EREKE LERAAR BP LLE h, ri], RË 

了 8 


ii 


L={e:2€R, Laer}. (8.49) 
假定 我 们 在 王 内 有 两 点 好 Aa, sce, ARRES a) 
<fc). 从 单 妖 的 定义 (8.48) 推 知 Ek, z]. 类似 地 ， 如果 
f@)>f(@), PABA eE, rl. MRA o Mo? 1 Re 
恰巧 相等 ,那么 必 E [zw!, a], (BE, WT ERR, 我 们 认为 x” 属 
于 前 述 两 个 较 火 的 区 闻 中 的 一 个 . 不 管 怎样 ， 在 计算 头 两 个 函数 
什 之 后 ， 位 于 吧 的 右边 或 吧 的 左边 的 工 的 一 部 分 在 以 后 搜索 中 
WARE. MRR FHKE, rj, 那么 它 将 包含 点 各， 反之 ， 
Rit, 9] 留 下 , WESS A. Ei LETTEKE l, f2], 
在 [，* 对 上 取 一 点 异 于 已 经 出 现 的 点 - 在 所 取 点 上 计算 函数 值 f. 
将 这 一 点 上 于 的 函数 值 与 [4s, 7s] 中 另 一 点 的 函数 值 相 比 较 ， 我 们 
能 进一步 缩小 这 个 区 间 ， 每 一 个 这 样 的 区 间 缩 小 称 为 一 次 进 
4X. 
下 面 介绍 的 方法 称 为 Fibonacci 法 ， 因 为 它 采 用 下 式 定 义 的 
Fibonacci 2 百人 
Fo=0, Fy=1, Fy=FyitFrs, k=2, 3, =. (8.50) 
因此 ,前 几 个 Fibonacci #3 0, 1, 1, 2, 3, B, 8, 13, 21, 34, 55, 
89, --, 
Fibonacci KELAT: BN YER f THE OGER, 
WEN PRR, RA N-L KERRIER). 在 第 天 次 选 
Reo MRA, te] 对 于 = 二 2, +, NI, 比较 下 列 
两 点 的 函数 值 


oht (rb), (8.51) 
Fyyar 


ob = by + El (ryh), (8.62) 
Fara_x 


这 里 除了 %=1 WS, BAA oe MR ol EM KER CAVE 
过 函数 值 了 . 

注意 , Aa Moz HAERERE r me). 从 (8.51) 和 
(8.52) 以 及 Fivonacoi 数 的 定义 , 我们 有 
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ee Bes hy) = Ere eo Pen (pt) (8.58) 


Fa 
=r — h — ed (Te — b) = Ty EE, (8.54) 
Nt2--k . 
〈 也 可 见 图 8.5)， 

Px . 
Feat © 1 1 
Fy, I 
| h gn ha 

1 y 
| Pus l-4 | 
I | | 
| 


| | 1 
4 xè xR rk 
8.5 Fibonacci 法 在 对 称 点 计算 函数 值 
在 最 后 一 次 近 代 忆 一 六 一 1 中， 公式 (8.5I) 和 (8.52) 中 两 个 
Riek 和 -1 应 当 安 置 在 


shama amts att (rya), (8.55) 


从 而 不 可 能 进一步 缩减 区 间 . 因此 , 为 了 通过 最 后 的 函数 值 计算 
EEx- tra] 缩小 到 它 的 长 度 的 一 半 ， 我 们 把 最 后 的 点 ey 和 
ws: MERKA (bya, rs- PRA AMERA e 的 地 方 , XE e 
HOW EI É BCS PAR ZY eS PB, EA 
PRB KB, EMME, 如 果 eme, BARS w 位 
T ak H we Zia f (wz) =f (az). 

在 计算 了 V 次 函数 代 后 ,包含 的 区 间 的 长 度 由 下 式 给 出 


fy—by= Tacha, (8.56) 


N+1 


其 中 5 是 零 或 者 s， 因 此 我 们 能 够 通过 11 K IE H T F= 
144), 在 初始 区 间 的 1% BPS R tE gk RR, mE 
it 16 ke MATT AR RETARA KRG 01A 以 内 划 出 . 

58.3.1 

试 寻求 了 (2) (e--3)? 的 极 小 值 点 M N=4 次 函数 值 计 算 


i4 


并 且 假 定 工 = [0, 10]. 
用 Fibonacci 法 在 搜索 结束 时 ， 应 该 得 到 包含 了 的 榴 小 什 点 
=I MRAKA, 它 的 长 度 为 
10-0 


rh no yee te, (8.57) 
搜索 升 始 如 下 : 

s}=0+2 (10-0) =4, (8.58) 

ai=0+3 (10-0) =6, (8.59) 

fn=1 fei. (8.60) 


现在 我 们 缩小 初始 区 阐 ， 按 前 面 确定 的 规则 ， 得 到 2 一 0， r=, 
进行 第 二 次 选 代 , M(8.51) Mi (8.52) 


“b= 0+ 5-6-0) =2, (8.61) 
o3-0+2(6—0)=4, (8.62) 


注意 , 在 这 情况 下 , AMAT ol, 而 在 点 好 已 经 计算 过 了 的 值 ， 
这 里 

Fle)=1, fi). (8.63) 
虽然 (8.63) 指 出 了 的 极 小 值 点 位 于 “=2 和 2 一 4 之 间 ， 我 们 有 意 
不 管 这 种 意外 情况 (实际 中 很 少 出 现 ), 而 令 8 一 2， 93 一 6 于 是 


wh=2+5(6—2)=4, (8.64) 
ni— 242 (6-2) ad. - (8.65) 


因为 在 z 一 4 的 函数 值 已 经 计算 过 , 不 妨 选 取 8 一 0.01, Bf (4.01) 
=1.0201. 因此， 如 预测 那样 ， 包 含 了 的 极 小 值 点 的 最 终 区 间 为 
[2, 4.01] .搜索 过 程 也 表明 在 图 8.6 中 ，] 

Fibonacci 搜索 法 是 由 Kiefer 首先 提出 的 ， 他 也 曾 指 出 ， 
在 某 种 意义 下 这 个 方法 是 最 优 的 ， 在 所 有 采用 N 次 函数 值 计算 
利 划 界 求 单 笑 函 数 的 极 小 值 点 前 非 随机 搜索 方法 中 , TEN K 
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8.6 进行 入 一 4 次 函数 值 计算 的 Fibonacci 搜索 法 


函数 值 计算 以 后 仍 保 留 的 、 并 包含 要 寻找 的 极 小 值 点 的 最 大 可 能 
的 区 间 来 说 , Fibonacci 法 将 这 个 区 间 的 长 度 减 少 到 最 小 . 换言之， 
最 优 搜索 方法 使 初始 区 间 同 NV 次 函数 值 计算 以 后 仍 保留 的 并 包 
含 极 小 值 点 的 可 能 的 最 终 区 间 的 长 度 之 比 达到 最 大 .根据 Avriel 
和 Wilde， 我 们 介绍 被 称 为 对 称 Fibonacci 法 的 一 个 最 优 性 证 
H, 这 个 方法 与 Kiefer 方法 稍 有 差异 , 并 且 还 保证 , 在 最 后 的 迭代 
中 , 单 峰 函数 在 相互 虐 离 为 6. 并且 对 称 地 位 于 区 间 Cla, tral P 
点 两 侧 的 两 点 上 计算 函数 值 ， 这 一 修正 比 Kiefer 方 法 在 s 的 量 
级 上 了 略 有 改进 , 而 当 © ~> 0 时 , 这 两 种 方法 就 变 成 相同 的 了 . 

我 们 把 在 实 直 线 的 闭 区 间 [a，rz] 上 的 一 个 搜索 策略 SCN，s) 
定义 为 如 下 计划 ， 在 这 个 区 间 的 六 PARR ot, w, e, aY 上 计 
算 函 数值 , 这 里 w*+1 的 位 置 依赖 于 单 峰 函 数 了 在 z+，…，wr 的 值 ， 
并 且 对 于 一 切 jk, 使 得 

|o —a*| Se, (8.66) 


这 里 <5 这 个 计划 在 初始 区 间 逐 次 缩减 到 单位 长 度 的 最 终 区 


Hts, tli, RARE Ch, rl 上 了 的 极 小 值 点 空 ， 这 
里 要 注意 , 选取 最 终 区 间 具 有 单位 长 度 只 是 为 了 简化 记号 和 证 明 . 
KE, 我 们 假设 有 0， 按 适当 的 标 上 谎 , 初始 区 间 通 常 总 能 表 成 这 
PER. 
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wa N 个 函数 值 计 算 的 对 称 ibonacoi 搜索 法 是 一 种 关于 
初始 区 间 [0, rh ] 的 搜索 策略 , 这 里 右 端 点 为 


Tis = Fy rise (8.67) 
假定 第 次 函数 值 计算 已 经 完成 , So 是 这 样 的 数值 使 得 
Fo) ~min(f@), «+, F. (8.68) 


规定 
T= maxa :oi < wt, j=l, ---, k} U {0}], (8.69) 
re=min{{eltal>a™, j=l, =, RU {rxs}. (8.70) 
关 为 是 单 峰 的 ， 显 然 x* DART IR, co]. 要 计算 函数 值 的 点 
由 下 面 关系 式 给 出 ; 
l= Fy— Fx.26—7L ya, (8.71) 
esl feb a pl, on, Wed, (8.72) 
注意 , H (8.67), A o 恰 为 用 义 一 1 RTT BA Fibonacci 搜 
索 中 的 of vor. 

首先 我 们 将 证 明 对 称 的 Fibonacci 法 的 确 是 如 上 定义 的 搜索 
策略 . 

引 理 8.6 

当 se< 二 时 ， 如 上 记述 的 对 称 的 Fibonacci 搜索 对 于 任何 音 
峰 函 数 来 说 是 在 [0, ri] ba SCY, ©) Fem. 

TEA] 我 们 必须 指出 ,站 次 函数 值 计 算 以 后 , 得 到 单位 长 度 
POR BIC, vx], RTE AAG OE BE e 更 接近 . 证 明 采 用 
MAN KARE MT N=1, SMR, AA h Gene 
(8.71), HB) WO, ri. =1. 

对 于 N=-2, 7 了 ;一 2 一 8 H o'=1, ZAH g= 二 
=1—¢, Hile — a| =e, 同时 , 对 于 任 一 单 峰 西 数 ,或 者 2 一 w， 
或 者 w* 一 ,而 在 这 两 种 情况 下 , 均 有 72 一 避 一 1. 

HEBEN NS? 引 理 成 立 ， 那 么 对 于 义 十 1 次 函数 年 计 算 
来 说 , 有 

Tsti= Fyr Pre, (8.73) 
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w= Fy Fsi riy, (8.74) 
a= Pyra— Fwye— Fwyrit+ By_1é 
— Fy— Fy =i ya, (8.75) 
et ale =rhy—ri yi lere, mE =r, PARR 
rg=0 =r] yy, Bi arin BE risa ET- KA 数值 计算 ， 
HAARE MRY. WME, WA 及 一 他 ,xl 和 
?2 一 ?w+1， 通 过 简单 的 变量 代 换 
=r y4, (8.76) 
得 到 OTS (rira ris) mrio BE ris 作 了 一 次 函数 值 
计算 , 引 悍 还 是 成 立 ， 卫 
在 下 述 定理 中 我 们 将 证 明 ， 在 所 有 搜索 策略 中 ， Fibonacci 法 
达到 初始 区 河 右 端点 的 最 高 值 ， 这 相当 于 说 ，Fibonaeei 法 产生 初 
始 区 间 对 最 终 区 间 的 最 大 长 度 比 值 ， 该 最 终 区 阅 包 含 著 任 何 单 峰 
RRMA. SAT, 一 种 例外 情况 必须 指出 。 前 面 我 们 已 提 
到 , 如果 f (at) =f Co), 那 就 能 够 推出 ot 必定 落 在 wr 下 与 2 之 
H. 这 种 情形 可 以 要 求 搜索 方 法 作 适 当 修 改 , 这 蛙 我 们 就 不 讨论 
T. 
定理 8.7 
在 初始 区 间 [0, ra, wl 上 所 有 搜索 策略 SCN, ©) th, Fibonacci 
法 SrCN，a) 产 生 右 端点 的 最 高 值 ， 只 要 对 于 ~=1,…， 太 一 4 有 
JESO). 
【证 明 】 RNB N 的 归纳 法 ， NANI, 证 明 是 显然 
的 , 因为 所 有 .1 一 ?01 一 4， 对 于 N= 2, 不 失 一 般 性 , 设 在 任何 策 
略 S(2, c) H a>, MAAL, rrai e, Aries 
2 一 8 一 ?x?， 现 假定 , HAN >22 CERA. BRANT RRS N+, 
e), Be >a? Eo =a?) A 及 wri 一 0, Porro", RITER TE 
LO, elb SO, 8) 策略 ， 由 于 归纳 法 傻 设 , 有 


rE y, (8.77) 
然而 , 也 由 于 归纳 法 假设 , 应 有 
Ca (8.78) 
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ALBA TEE <e, 于 是 加 AMI [0, 27] LAY SCN 一 1， 
8) 策略 灯 确 定位 置 ， mE =a, WBA be, nei = 27 条 ra w+1 一 T2,N+1. 
由 归纳 法 假设 , 有 


Tya E Tiy. (8.79) 
K (8.78) 55 (8.79) FA Ia, Fb VRE ap T A EE OF: 
rinna STE wt eh yao) N+. (8.80) 


关系 式 (8.77) 至 (8.79) 对 于 Fibonacci 搜索 来 说 恰 成 为 等 式 ， 另 
外 , 用 相似 于 对 人 .78) 的 讨论 ,我们 可 得 出 
人 TI, Nt 一 TS oe (8.81) 

RIB (8.77) A1(8.81) TT, LIE — fy — Pp BE AH (8. 80) RE 
xt, Ait, Fibonacci 法 是 得 到 ry 节 大 值 的 唯一 办 法 】 

Fibonacci 法 的 缺点 之 一 是 , 在 开始 搜索 之 前 计算 函数 信和 的 次 
数 W 必须 预先 知道 ， 这 个 要 求 对 于 所 亩 黄金 分 割 法 就 不 是 必需 
的 , 它 是 Fibonacci 搜索 的 一 个 很 好 近似 ， 可 以 证 明 ,有 


Eyi TS 1 as ~ 5 —] 


lim 5 0.618, (8.82) 


No Fy T 


PA EXI (8. 52) ar oh BY mk AYE, AT A F RORE, 


gaht + (re). (8.83) 

这 样 , 黄金 分 割 法 把 计算 函数 值 的 点 放 在 下 述 位 置 ; 
than hy +75 (eh), (8.84) 
samh ++ (teh). (8.85) 


这 里 下 标 G 表 示 黄 金 分 割 法 所 到 的 点 , 而 其 他 记号 保留 不 变 , 

从 (8.84) 和 (8.85) 看 出 ， 黄 金 分 荐 法 同样 将 有 关 点 对 称 地 放 
置 .假定 8 下 0， 从 (8.56) wih, AN ik we 
Fibonacci $, HAT 1/ Pyros 缩减 包含 了 的 极 小 值 点 的 区 间 .， 这 
里 要 求 读者 证 明黄 金 分 割 法 用 因子 1/4zp” 缩减 这 个 区 间 ， 还 
可 以 证 明 
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。 Fy, (ry? À 
1 ee | 8.86 
me et vB ee € ) 


因此 对 于 大 的 N (和 小 的 e)， 黄 金 分 割 法 所 产生 的 最 终 区 间 比 
Fibonacci 法 要 长 17%， 或 许 ， 两 个 方法 的 更 为 清楚 的 比较 可 用 
下 述 事实 来 阐明 :用 NHL 次 函数 值 计算 的 黄金 分 割 法 通常 能 产 
生 的 最 终 区 间 ， 其 长 度 与 用 N 次 函数 值 计算 的 Fibonaeei 法 得 到 
的 区 间 长 度 相同 或 绞 小 . 

“黄金 分 市 ”的 名 字 , 来 源 于 用 特种 方法 分 割 线段 或 矩形 的 古 
典 问题 , 有 关 黄 金 分 割 法 的 更 完整 的 讨论 以 及 它 与 Fibonaeei 法 的 
关系 , 读者 可 参考 Wilde™ 和 Wilde, Beightlor" HE 4E, 


8.4 最 优 分 批 搜 索 法 和 黄金 分 批 搜索 法 


在 8.3 节 中 所 述 的 方法 是 基于 有 顺序 的 搜索 .换言之 ， 需 要 
极 小 化 的 函数 在 某 一 点 上 计算 函数 值 ， 耐 下 一 步 计 算 函 数值 的 点 
的 选择 依赖 于 前 面 的 结果 .在 [15] 中 还 得 出 另 … 个 效率 低 得 多 的 
方法 (相对 于 包含 极 小 值 点 位 置 的 初始 区 间 对 最 终 区 间 的 缩减 比 
(AIMS), 在 这 个 方法 中 ,函数 值 计算 常 是 同时 完成 的 。 在 某 些 实 
际 情况 下 , 这 样 的 搜索 过 程 可 能 是 有 用 的 . 例如 ， 要 寻找 极 小 的 函 
数值 计算 是 一 项 复杂 而 费时 的 工作 ， 但 同时 测定 这 些 函 数值 却 是 
可 能 的 . 

同时 性 方法 已 经 与 Fibonacci 法 和 黄金 分 割 法 相 结 合 ， 成 为 
分 批 搜索 技术 ,在 其 中 要 完成 一 系列 同时 计算 函数 值 的 “ 批 ”， 要 
获得 比 目 前 运行 中 的 计算 机 更 大 型 更 快速 的 计算 机 ， 一 种 可 能 的 
途径 是 给 它们 装备 平行 处 理 单元 "” 使 得 算术 运算 可 以 同时 完成 . 
分 批 搜 索 方法 是 为 这 种 类 型 计算 机 导出 的 第 一 种 最 优化 技术 ， 其 
思想 是 , 在 平行 处 理 单元 中 同时 完成 一 批 函数 值 计算 , 缩减 包含 极 
小 值 点 的 区 间 , 然后 又 在 留 下 的 区 间 中 完成 新 的 一 批 函数 值 计 算 ， 
以 此 类 推 。 这 些 方法 由 Avriel 和 Wilde™™ 发 展 是 基于 广义 
Fibonacci 数 和 黄金 分 割 。 这 些 方法 的 最 优 性 ， 其 意义 相当 于 
ibonacei 方法 和 黄金 分 割 法 的 情况 ， 能 类 似 于 引 理 8.6 和 定理 
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8.7 那样 证 明 .， 遵循 不 同 线索 的 证 明 , 可 见 Karp, Miranker 的 车 
作 中 这 里 我 们 只 概要 叙述 算法 ， 其 最 优 性 的 证 明 能 在 前 面 的 参 
考 文章 中 找到 . 

分 批 搜索 方法 由 多 个 在 序 的 批 所 组 成 ， 每 个 批 包 食 二 个 函数 
值 的 同时 计算 ， 初始 区 间 为 [0, rid (其 中 上 标 BER “分 批 搜 
R). 而 在 六 = 如 次 函数 值 计算 以 后 , 它 被 缩减 到 单位 长 度 ， 再 


1 
A 
KA ESF. 


AGE SP AAAA A A C= 2k—1 (奇数 ) 或 是 
6 一 22( 偶 数 ), 我 们 有 两 个 不 同 的 策略 , 概述 如 下 : 
(a) 用 于 一 2k 一 1( 奇 数 ) 的 分 批 搜索 法 
利用 下 述 弟 推 关 系 定义 广义 Fibonacei 序列 , 
A(k, h+2)=k[ ACh, hi+1)+ Ak, h)), (8.87) 
其 中 Atk, 0)=0, ACE, 1)=1,. ERBRPAM FABRA LA 
X. WE k=l, 关系 式 (8.87) 就 成 为 熟知 的 Fibonacci 序列 、 在 
奇数 分 批 搜 索 中 初始 区 间 的 右 端 点 由 下 式 给 出 ; 
Ti-1.n=ACh, n+1)—kAlk, n—1)e. (8.88) 
AT SRR /ME nN BA Ree I, BP LAE SS 6 RTS 
后 , 我 们 就 得 到 一 个 缩减 的 包含 点 好 的 区 间 , Eo" 该 函数 具有 
该 批 所 有 点 上 的 最 低 值 (计算 了 了 2 一 1 个 点 ,再 加 前 一 批 留 下 一 个 
点 )、 尽 可 能 利用 原 米 的 表示 法 。， Weal, 2,--,n, Aah 
HS wi, w e sz 是 第 纪 批 中 活 数 值 间 时 计算 的 《28 一 1) 个 点 的 
位 置 及 前 已 完成 计算 的 ww 的 位 置 , 则 
of=l? + Alk, n—¢+1)—kACR, n—i—1)e, (8.89) 
aft? of bE Atk, n—i+2)— Alk, n—i)e, 
j=0, «+, 2k—2, (8.90) 
(b) 用 于 一 2k( 偶 数 ) 的 分 批 搜 索 法 
初始 区 间 的 右 端点 由 下 式 给 出 : 
Tinn —(k+1)"—e, (8.91) 
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同样 令 of Uh, BRAD i HLM 2k 个 函数 值 计 算 及 前 已 完成 计算 
的 ao" 放置 如 下 ; 
gtd BT)" j=0, =, 2h-1, (8.92) 
at=(k+1)*3—«, (8.93) 
HFIS, n, RE alma Malte, RE aft gt 
Tiie. HCH a7, wt, +--+, of 可 以 利用 (8.932) 从 3 开始 递 扒 地 找 
到 ， 而 利用 (8.92) 以 oH 作为 起 始点 ， 定 出 办， af, oo, oP HY 
位 置 . 
例 8.4.1 
假设 我 们 权 划 定 区 间 [0，40] 上 定义 的 童 峰 函数 的 极 小 值 点 ， 
使 最 终 区 间 为 单位 长 度 , Tie=0.5, 由 于 实际 原因 ， 只 能 分 三 批 
计算 函数 值 , 虽然 每 一 批 中 旺 数 信 同 时 计算 的 数目 不 加 限制 ， 
首先 必须 确定 上 即 每 一 批 中 函数 值 同时 计算 的 最 小 数目 , 使 
得 在 做 完 3 批 之 后 得 到 一 个 单位 区 间 . 利用 (8.88) 和 (8.91), 其 
中 % 一 8， 我 们 就 得 到 他 8 一 2.5， 人 sz 一 7 .5，743 一 14，14s 一 26.5 
以 及 唱 s 一 40.5. 在 完成 每 一 批 的 上 一 5(#= 3) 个 函数 值 计算 之 
后 , 我 们 就 确保 初始 区 间 缩 减 40 倍 ，、 第 一 批 中 计算 函数 值 的 点 由 
《8.89) 和 (8.90) 确 定 如 下 : 
wi—12— (8) (1) (0.5) —10.5, 


n= 5 (45) — (3) (0.5) 13.5, 


a}=10.5-+4-(45) — (8) (0.5) =24.0, | (8.94) 


at=13.5--4 (45) — (3) (0.5) =27.0, 
af= 244 = (45) — (8) (0.5) = 37.5, } 


图 8.7 Zon i PR ERRA. 可 以 看 到 , 在 第 一 批 之 后 
保留 下 来 的 包含 极 小 值 点 的 区 间 是 [13.5, 27.0]. 
现在 , 在 第 二 批 的 下 列 点 上 (包括 了 保留 下 来 的 点 24.0) 7) 
RAE. 
ag 


QO] 10.5 13,5 24 27 37.5 40.5 


图 8.7 函 教 值 计 算 的 第 一 批 


l= 18.5 +3—(3)(0)(0.5) 16.5, 
i= 135+ +a- (1) (0.5) =17.0, 
a3 16 .5+2(12)— (1) (0.5) =20.0, ; 
w§=17.0+ 4(12)— (1) (0.5) =20.5, ee) 
a} 20.0+4-(12)— (1) (0.5) = 23.5, 

a$-—20.5+ 2 (12)— (1) (0.5) = 24.0, 


在 第 二 批 函数 值 计 算 后 的 状况 如 图 8.8 所 示 ， 保 留 下 来 的 区 间 是 
(23.5, 27 .0 ,保留 下 来 的 点 仍 是 24.0, 


U 13.5 16.5 1? 20 20.5 23.5 24 27 


图 $.8 Ra RAYS Hi 
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读者 可 以 利用 (8.89) 和 (8.90) 验 证 ， 第 三 批 中 计算 函数 值 的 
点 以 豆单 位 长 的 距离 间隔 地 放置 ， 如 图 8.9 所 示 ， 最 终 区 间 
[24.5, 25. 团 为 单位 长 度 ， 】 


23.5 24 24.5 25 255 26 265 27 
图 8.9 函数 值 计算 的 第 三 批 
在 将 要 结束 关于 最 优 分 批 接 索 际 的 时 候 ， 我 们 给 出 一 些 例子 
来 说 明 它 的 效率 ， 该 效率 以 缩减 到 单位 长 度 最 终 区 间 的 初始 区 间 
的 长 度 为 依据 。 在 玫 8.1 中 列 出 了 6 一 上 及 分 批 数 2.5、 8 情况 
下 的 初始 区 间 长 度 , 也 就 是 En H, 将 它 作为 每 一 批 中 问 时 计算 
函数 值 次 数 的 一 个 函数 ， 这 个 胡说 明 , 对 于 给 定 的 ,初始 区 间 长 


度 随 着 分 批 数目 而 巨大 地 增加 , 又 对 于 给 定 分 批 数 , 它 也 随 着 每 批 
中 闻 数 值 同时 计算 的 数目 的 增加 而 可 观 地 增加 . 


REI 初始 区 间 长 度 


a 


在 给 定 函 数值 计算 总 数 时 ， 观 察 不 同 的 分 配方 案 下 分 批 搜索 
法 的 效率 也 是 颇 为 有 趣 的 ， 表 8.2 比较 了 在 各 种 不 同 的 分 批 方 
案 中 安排 12 次 函数 值 计 算 所 相应 的 初始 区 间 长 度 ， 这 里 ， 仍 取 


= 


te] 一 


表 8.2 I2ZKPRHUKHWHRARE 


E | n cB 


12 188.5 
63.5 
38.0 
26.5 
15.5 
6.5 


Fo PH 


可 以 看 出 , 对 给 定 的 函数 值 计 算 总 数 ，Fibonacei 搜索 法 具有 可 以 
缩减 到 单位 长 度 的 最 大 初始 区 间 ， 因 为 它 利用 了 函数 值 计 算 所 过 
供 的 所 有 有 用 信息 ， 而 没有 任何 一 次 函数 值 计算 被 分 批 搜索 法 的 
同时 性 特征 所 浪费 掉 . 

最 优 分 批 搜 索 法 的 进一步 推广 是 由 Beamer 和 Wilde 作出 ， 
他 们 容许 函数 值 同 时 计算 的 数目 可 以 逐 批 变 更 ,进一步 细节 读者 
可 参考 [5]， 

最 优 分 批 搜索 法 与 Fibonacci 搜索 法 有 类 似 缺 点 ;， 即 搜索 中 
所 用 到 的 分 批 数 必须 是 预先 已 知 的 . 正如 黄金 分 割 法 是 Fibonacci 
法 的 良好 近似 ， 下 面 要 描述 航 黄 金 分 批 搜索 法 甚至 是 最 优 分 批 搜 
索 法 更 为 良好 的 近似 ， 

Avriel, Wilde ATER, 


tim AGED _ ETOH a, (8.90) 
BD Xt k=1, 2, =, Tk 是 下 述 方程 的 解 . 
[ie (8.97) 


MF k=, n 的 值 等 于 在 黄金 分 割 法 中 用 到 的 7+, 对 于 =2, r H 
值 近似 为 2.732, Ts=3.791 等 等 


a5 


首先 考虑 每 批 中 函数 值 计算 奇数 次 , 当 & > 0 时 ,对 最 优 分 批 
搜索 法 , 我 们 得 到 
Tik- S ACh, m+1), (8.98) 
ow} ol? tAk, n—i+1) (8.99) 
以 及 
ait malt Alk, a—6+2), j=0, ++, 2h—2. (8.100) 
对 于 大 的 n, 我 们 从 (8.96) 得 到 


ACk, n) i 
A Cr) (8.101) 


现在 ， 假 定 黄金 分 批 搜 索 的 初始 区 问 等 于 某 个 最 优 分 批 搜索 的 初 
始 区 间 , 这 最 优 分 批 搜 索 具 有 批 , 每 批 各 计算 中 一 1 RRB 
s=0, E} 

Tae = TL, (8.102) 
这 里 的 上 标 GB 丧 示 “黄金 分 批 ”” 然 后 利用 (8.98) 至 (8.102), 按 
照 黄 金 分 批 搜索 法 , 我 们 在 下 列 点 计算 函数 值 ， 


silg) oi, (8.103) 
Th 
alt ol $F (ay) rge ti, §=0, ++, 26-2, (8.104) 


各 计算 站 一 OR SAIN nthe, a Se ee AN 
RKE ERE HA) Cay) ve, 给 出 ， 

再 考虑 , 每 批 中 函数 值 计算 偶数 次 , 这 时 ， 黄金 分 批 搜索 Ay 
Ae RH Be RA KR, FE 


1 rit —ke 
a= s (8.105) 
att? gi +. 党 HE, g=0, +++, 2k— 1. (8.106) 


这 些 表达 式 仅 包含 初始 区 间 [0, oP 和 间隔 6， 而 与 分 批 数 无 关 ， 
在 每 批 32 个 函数 什 间 时 计算 的 nn 批 之 后 , M TKE OL + 
/4 二 1D" 给 出 
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例 8.4.2 
假设 我 们 要 寻求 区 间 [0，45] 上 单 峰 函 数 的 极 小 值 点 ， 容易 
算出 对 于 s > 0, 有 
r? = A(3, 4)=45, (8.107) 
从 而 ， 利 用 最 优 分 批 搜索 法 确定 的 每 批 有 5 个 函数 值 同 时 计算 的 
3 批 之 后 ， 可 以 把 初始 区 间 缩 减 到 单位 长 的 最 终 区 间 . 让 我 们 在 
同一 区 间 上 进行 5 个 函数 值 同 时 计算 的 黄金 分 批 搜索 ， 表 8.3 给 
出 了 在 第 一 批 中 函数 值 计算 的 位 置 , 它 由 (8.108) 和 (C8.104) 给 出 . 
括号 内 的 数字 指出 相应 的 最 优 分 批 搜索 所 确定 的 函数 值 计算 的 位 


表 8,3 第 一 批 中 函数 值 计算 的 位 置 


3 a 4 5 


11.8712) 26.87 (27) 41.87 (42) 


15(15) 30(30) 


用 黄金 分 批 搜索 所 确定 的 第 三 批 函数 值 计算 之 后 ， 余 下 区 间 长 度 
为 可 (3.791)-(45) = 1.0436。 即 与 最 优 分 批 搜索 法 所 能 得 到 的 
相应 的 单位 长 度 最 终 区 间 相 比 , 这 区 间 的 长 度 仅仅 超过 4.36%, 了 


通常 ,在 每 批 中 函数 值 同时 计算 的 数目 越 多 , 那么 用 黄金 分 批 
搜索 来 近似 最 优 分 批 方法 也 就 越 好 . 


& y 


8.4. SX Newton 法 和 割 线 法 的 简短 计算 程序 . 用 它们 找 出 简单 方程 
的 解 。 计 算 每 次 选 代 的 误差 , 并 且 将 得 到 的 试验 收敛 速率 与 理论 收敛 
速率 进行 比较 . 

8.B. ike: AERC. 34) Bim (8.32) “KRM o 为 正 数 , AKT OD 
测 的 逗留 点 确实 是 极 小 值 点 . 

8.C. 假定 要 求 极 小 的 函数 的 一 阶 导 数 处 处 是 已 知 的 , 试 修正 二 次 方法 和 划 
RAR, 

a7 


8.D. 


8.E. 


并 且 ， 如果 


uf RR bem, VEER, s€ k, OER, 定义 

FO) =f (x°+0a), (8.1.08) 
FRERNS RE YH, HAMAS AAs RSPR. 
Soo +62, 2° +O fe +ée =A LP EASA. 证 明 : 利用 二 
CRIB AT RRS RRES 2° 4+ 6% 2, 此 处 


— EC? — (Oa) ]F (83) + (Os)? — (91) EO + (61)? - COM Os), 
2C (62 — OE (OD + Oam ODE O + (O01 — Fa) Os) J 


(3,109) 


(83-63) F (0D 十 (Cs —84) E (02) + (6. — Oa) F (Ca) 110 
(82 — Gg) (Os — 81) (A, — Oa) = G ) 


那么 它 确 实 是 通过 上 上 面 三 点 的 抛物 线 的 极 小 和 值 点 . 
区 界 方法 称 二 次 逐 近 方法 的 下 述 形 式 见 Davies, Swann, Campey™4, 
在 某 一 初始 点 CCR, TARR 了 的 数值 ， 取 预定 步 长 #>0， 然 后 在 


wh 计算 函数 了 的 数值 ， 如 果 


8.F. 


8.4. 
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© fN >f (+h), (8.111) 
将 步 长 加 信 , 并 且 在 函数 值 减少 的 方向 计算 了 的 后 续 值 ， 重 复 这 过 程 
直 鞋 得 到 函数 值 的 增加 。 
如 果 ， 
f@D)<f(@+h), (8.112) 
于 是 计算 ftz? 一 2%) ，f (ze 一 包 ) 等 等 直至 得 到 函数 值 的 增加 ,最 后 三 
点 形成 包含 了 的 极 小 值 点 的 界限 . 于 是 在 用 此 法 得 到 的 最 后 两 点 之 间 
的 中 点 上 计算 函数 值 。 这 个 过 程 产 生 按 某 个 等 距离 s OA NG, 
抛弃 离 函 数值 最 低 点 为 最 远 的 端点 ,而 保留 三 个 等 间 量 点 以 便 进行 二 
KEE. Wace cr 是 这 三 个 点 ,并 设 天 是 相应 的 函数 值 ， 证明: 
用 二 次 通 近 方法 所 预测 的 极 小 值 点 z+ 由 下 式 给 出 

stadt ae zit ay (8.113) 
然后 , 用 较 小 的 步 长 重复 进行 划 界 过 程 , zt 能 够 相应 于 通过 三 点 的 抛 


” 物 线 的 极 大 值 点 吗 ? 面 出 这 个 方法 的 框 疼 . 


详细 描述 求 上 处 处 有 定义 的 函数 极 小 的 一 种 搜索 法 . 这 种 方法 以 带 
有 外 推 法 的 二 次 台 近 为 基础 ( 即 永 用 划 量 ) 权 利用 函数 值 计 算 , 并 画 出 
该 方法 的 框图 . 

验证 三 次 遂 近 方法 的 关系 式 (8.44) 至 《8.47)， 


8. 耳 .证 明 通 过 对 次 函数 人 计算 的 黄金 分 割 法 ， 最 终 区 间 对 初始 区 间 的 长 


8.1. 


12, 


ERE 17r)? 给 出 。 用 下 述 关 系 
Ww — (a )* — (--47)7* 8. 4 
a V3 É i ) 


证 明 (8.86) 式 . 

利用 最 优 分 批 搜索 法 的 公式 导出 对 称 的 Fibonacci 搜索 法 (E=1), Ft 
且 同 本 章 给 出 的 公式 比较， 

利用 最 优 分 批 搜索 法 的 公式 ,对 任意 的 奇数 次 或 偶数 次 前 数 计算 ， 导 
出 同时 性 者 崇 过 程 (nw 一 1)， 并 对 奇数 次 情形 和 偶数 次 情形 比较 该 方 
法 的 效率 , 
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不 用 导数 的 多 维 无 约束 最 优化 : 
Bit HIE GRA ee 


对 一 个 函数 了 解 得 越 多 ， 我 们 就 可 以 导出 寻找 其 极 值 点 的 更 
好 的 或 更 有 效 的 算法 ; 但 是 另 一 方面 , 为 了 得 到 该 函数 的 更 多 的 信 
K, 却 又 可 能 需要 大 量 的 计算 工作 . 例如 , 如 果 一 个 函数 是 凸 的 , 则 
它 的 每 一 个 逗留 点 必然 对 应 到 一 个 整体 极 小 ， 但 是 为 确定 西 性 所 
需 的 计算 量 却 可 能 是 很 大 的 ， 类 似 地 , 如 果 Br 上 的 一 个 函数 的 一 
阶 导数 与 二 阶 导 数 可 供 使 用 ， 这 将 大 大 有 利于 确定 其 极 值 点 的 位 
E, 但 是 为 计算 其 导数 (特别 是 对 于 大 的 m) 所 需 的 算术 运算 次 数 
有 时 是 这 样 的 大 , 以 臻 我 们 宁愿 试 着 去 另 找 一 个 不 用 导数 的 算法 . 
在 许多 实际 问题 中 , 这 些 导数 简直 是 不 能 使 用 的 , 有 时 甚至 连 要 极 
小 化 的 画 数 的 解析 表达 式 也 不 能 找到 ， 这 些 考虑 说 明 ， 有 必要 提 
出 一 些 只 和 需 计 算 函 数值 的 无 约束 多 维 最 优化 算法 . 

在 以 后 几 章 中 将 讨论 一 些 更 有 效 的 算法 ， 其 中 不 仅 要 求 对 函 
数 进行 计算 , 而 且 要 求 对 其 导数 进行 计算 ， 这 些 算法 中 , 有 的 已 被 
修改 ， 使 导数 无 须 直 接 计算 而 只 是 用 其 函数 值 来 逼近 等 讲 到 有 
关 算 法 时 , 我 们 将 提 到 这 些 修改 方案 。 在 本 章 前 三 节 的 每 一 节 中 
我 们 将 讲述 一 个 经 验方 法 ， 这 些 方法 代表 了 无 约束 最 优化 的 早期 
成 就 . 虽然 今天 有 闭 更 先进 的 方法 可 殿 使 用 , 但 经 验方 法 及 其 基 
本 原则 的 简明 性 使 得 它们 在 某 些 情况 下 仍然 是 有 用 的 .本 章 的 其 
AMS) Ab HO A AFLOAT GT, ACA S| ASRS aE 
为 了 理解 不 用 导数 的 Powell 方法 ， 该 方法 一 般 认 为 优 于 经 验方 
法 . 


9.1 单纯 形 法 
长 期 以 米 人 们 就 认识 到 ， 为 了 寻找 几 个 变量 的 函数 的 模 小 佑 
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点 ,只 用 最 简单 的 概念 -- 一 车 如 在 BR" 上 产生 一 个 网 格 , 并 在 此 网 
格 的 每 一 点 上 计算 函数 入 ， 或 者 用 随机 移动 来 搜索 极 小 值 点 一 一 
是 很 低 效 的 .改进 的 经 验方 法 在 60 年 代 初 期 就 出 现 了 , 其 第 一 个 
就 是 所 谓 单 纯 形 法 , 现在 我 们 就 来 介绍 它 . 这 里 顺便 提醒 一 下 , 无 
约束 极 小 化 的 单纯 形 法 决 不 应 同 线性 规划 中 的 单纯 形 法 混淆 起 
来 , 虽然 二 者 命名 的 出 发 点 是 相同 的 . 一 个 单纯 形 是 BR" hnti A 
点 的 一 个 凸 包 ， 例 如 在 吾 中 的 一 个 线段 ， 在 妨 中 的 一 个 三 角形 
等 等 , 无 约 东 极 小 化 的 单纯 形 法 是 Spendley, Hext Himsworthcl5 
设计 的 ， 随 后 为 Nelder、Mead"" 所 改进 . 

考虑 实 函数 f(a) ER") ARAM, Ho, at, e, a E Rp 
的 点 , 由 它们 构成 一 个 当前 的 单纯 形 . oo 及 wz? 由 下 式 定义 ， 


f(a") =max{f(@), f(a), +, f (0)}, (9.1) 
fv) =min{f(@°), f(a"), ---, fw}. (9.2) 

用 x 记 这 个 单纯 形 除 ey 外 的 所 有 顶点 的 形 心 ， 
z=} Sa wa", (9.3) 


这 个 算法 的 主要 想法 是 用 一 个 新 的 、 比 较 好 的 点 来 将 换 当前 单纯 
形 中 有 着 最 高 函数 值 的 顶点 吧 , 这 点 的 替换 包含 三 种 类 型 的 步 又 ， 
反映 ,扩展 和 压缩 . 
在 反映 步骤 中 , H FRH r, 
gt+a(t— wy), (9.4) 
其 中 是 一 个 正 的 常数 , 称 为 反映 系数 . 
考虑 三 种 可 能 的 场合 : | 
1. MRI@)Of@), RREH, 反映 步骤 已 产生 一 个 新 的 
最 小 值 , 那么 我 们 就 进行 一 个 扩展 步骤 , 计算 
e =gz+ yla 一 元 )， (9.5) 
其 中 y> 工 是 -一 个 给 定 的 常数 ， 称 为 扩展 系数 ， At F(2") > f(a"), 
则 用 v 替换 z" 并 得 到 --- 个 新 的 单纯 形 ， 但 是 ， 若 fe") far), 
则 扩展 步骤 失败 , 这 时 用 wr AERA 2” LA fej OT A AB 
2. 如 果 


aa 


max{f (s), ata }>f(a)>f(a'), (9.6) 
那么 就 用 替换 他, 从 而 产生 一 个 新 的 单纯 形 . 
3. ae 
f(a) >max{ f(z"), a ag), (9.7) 
这 时 车 以 ao 蔡 换 EE 玉成 为 新 的 一 .在 这 种 场合 ,我 们 用 下 
式 定义 一 个 点 a*， 
f(a) =min{ f(a"), F), | (9.8) 
并 进行 一 个 压缩 步 又 
“=2+ Bla" — e), (8.9) 
Hp 0<8<1, RR RRR, M o BEBE oo TT LA A 
É, BRAEZE f(a) >f (a), 而 这 时 则 通过 下 式 定 义 新 的 点 D HS 
换 所 有 的 e, 


Bm alt (ato), 4=0, >, n, (9.10) 


E RIEZ K PB Sa BT A AR PD BE BOE. 
用 单纯 形 法 对 某 些 试验 函数 进行 的 性 能 估价 指出 ,选取 a“= 二 


=F y 一 2 给 出 好 的 结果 叫 。 用 单纯 形 法 对 极 小 值 点 的 一 


典型 搜索 见 图 9.1, 其 中 编号 指出 相继 的 单纯 形 的 顶点, 下 线 表示 
所 作 的 移动 ， 其 中 的 某 些 移动 因 失 败 而 终止 。 Nelder 和 Mead 提 
议 , 算法 终结 条 件 为 


a a 


这 里 & 是 某 个 预先 给 定 的 正 数 . 

Spendley, Hext 和 Himsworth 的 最 初 的 单纯 形 法 (它们 用 正 
规 单纯 形 , 没有 扩展 与 压缩 步骤 ) 及 上 述 Nelder 和 Mead 的 变型 已 
经 在 许多 问题 上 进行 了 成 功 前 试验 , 但 也 发 现 , 第 一 个 单纯 形 所 选 
的 尺度 与 方向 对 结果 有 重大 影响 ”此 外 有 人 报道 Nelder 和 
Mead 变型 (普遍 认为 它 优 于 最 韦 的 方法 ?对 于 变量 很 多 的 情形 , 性 
如 m>io 的 问题 是 十 分 无 效 的 ” ， 
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图 9.1 用 二 次 函数 说 明 单 纯 形 法 


9.2 模式 搜索 


这 个 简单 而 容易 实现 的 算法 属于 开 ooke、Jeeves1. 仍 假 定 
我 们 是 训导 找 一 个 实 值 函 数 jc)(zE B") 的 极 小 值 点 。 给 定 一 个 
初始 点 c& CE WILE th, 这 样 做 的 理由 读 完 下 文 自明 )， 我 们 在 eh 
周围 进行 一 系列 勘探 移动 如 下 ， 计 算 Sa) fet), 这 里 A, 
是 一 个 % 维 向 量 , 其 第 7 PORE aC >0, 其 余 分 量 为 0; 即 


á= (d, 0, O, ++, 0)7, (9.12) 
其 中 到 是 某 个 指定 的 正 数 ( 步 长 )， 因 此 
(a +41) = (3, +h, UB, Ra) Dhn). (9.13) 


如 果 SSS atA), A E R E E ROM, RIN Ww 
i= tA, HRR Rih v 轴 方 向 的 移动 ; 否则 , 我 们 反 转 搜索 
FA, 计算 Sa). WR SAFa), 那么 这 个 勘探 移 
动 认为 是 成 功 的 , FFE tl =o — MER- .移动 也 失败 , BD 
F (es —4,) > f (2h), (9.14) 
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就 取 Ht. 

ART An A HREM, 我 们 接着 计算 P+ 4), 
3 4. = (0, do, 0, --, OL 如果 f(H+4)<f(4), RR 
H=tt+d 否则 就 计算 Fe), FMS fA) 比较 、 当 
Fiti A <f, R = ti da FMR B=. ITA, 我们 
WBA n Ama A ERRE AAE ote, BARA D 的 
基点 oh, AARE EIDER D h ee — 2 移动 到 

tian + (ap — up), (9.15) 
这 称 为 模式 移动 . 如 果 Ac, MPT — FOR RE oh Lh et 
一 个 新 的 基点 o AAT ARETE BeRAM, 
我 们 就 减 小 并 用 较 小 的 步 长 在 站 周转 再 作 其 探 移动 .如果 
Fian <f (ab), 我们 作 下 一 个 模式 移动 到 
= 二 (2 wh) (9.16) 

并 在 如 周围 重新 开始 勘探 过 程 . 

继续 这 样 做 , 直至 我 们 达到 一 个 基点 性 , BFR) SSO”). 
遇 到 这 种 场合 就 回 到 叭 六 了 权 此 = 忠志 并 从 它 重 新 开始 勘探 移动 . 
如 果 这 些 勘探 移动 是 成 功 的 ， 就 重新 进行 另 一 模式 移动 与 勘探 移 
动 ; 否则 , 碱 小 @， 并 用 蒋 小 的 步 长 在 龙 周 围 再 作 勘 探 移动 . 当 d; 
变 得 小 于 革 些 预定 值 时 算法 就 终结 ， 图 9.2 说 明 把 这 个 算法 用 于 
某 一 个 双 变 量 函 数 的 情况 , 区 圈 中 的 数字 指明 所 经 过 的 点 的 顺序 ， 

为 了 到 达 靠 近 函 数 极 小 值 点 的 一 个 点 ， 虽 然 模 式 搜 索 法 可 能 
需要 大 量 的 函数 值 计 算 ， 但 是 它 被 认为 是 一 个 容易 编程 序 而 又 可 
靠 的 方法 . 它 的 主要 特征 在 于 顺 着 “ 贿 R T. RABDARE B 
想 的 谷 的 方向 跨 出 长 步 ， 而 勘探 移动 则 在 一 个 模式 移动 已 跨越 深 
从 时 重新 找 一 条 路 返回 这 些 深谷 . 


9.3 旋转 方向 法 


HAERA HE Hooke-Jooves 的 模式 搜索 中 得 到 了 
明显 的 反映 , 同样 地 ， 在 即将 叙述 的 Rosenbrock fy ie Fey ge 
中 也 是 如 此 。 导 致 提出 这 两 个 早期 的 无 约束 极 小 化 方法 的 理由 可 
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图 9.2 模式 搜索 用 于 一 个 两 变量 的 函数 


能 是 :两 个 最 老 的 算法 一 一 交替 方向 法 与 最 速 下 降 法 ， 在 用 于 一 
AL PART PERE TR Ze. 在 交替 方向 法 中 , 我 们 从 一 个 任意 点 出 发 , 沿 
o 轴 方 向 用 前 章 介绍 的 某 个 一 维 方法 搜索 一 个 极 小 值 点 ， 再 从 此 
极 小 值 点 出 发 ， 平行 于 zs HERR, 按 此 办 理 直 至 所 有 方向 
Tr, r, Ea 被 依次 搜索 过 .完成 这 样 一 轮 之 后 , 整个 过 程 又 重新 开 
te. 读者 不 难 作 出 用 这 种 方法 只 能 以 极 小 步 长 逼近 极 小 值 点 的 那 
种 二 维 函 数 的 等 值 线 图 最速 下 降 法 (将 在 后 面 介 绍 ) 也 有 类 似 的 
缺陷 . 这 两 个 方法 的 主要 缺点 在 于 它们 没有 能 力 因地制宜 划 改变 
自己 的 搜索 方向 . 

我 们 来 看 一 看 Rosenbrock 的 旋转 方向 法 是 如 何 搜索 召 " 上 一 
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个 无 约束 实 值 函数 也 的 极 小 值 点 的 。 虽然 在 Rosenbrock 原来 的 
著作 中 曾 把 这 方法 推广 , 便 之 可 用 于 带 有 某 些 约束 的 极 小 化 , 但 是 
在 本 节 中 我 们 具 讨论 无 约束 的 情形 . 

从 一 个 给 定 的 初始 点 鸣 E 2 出发, 并 选取 一 组 w 个 相互 正 交 
的 方向 C7, +++, "(通常 就 选 坐 标 轴 的 单位 向 量 ), 接着 , 沿 这 些 方向 
进行 勘探 移动 如 下 ， 计 算 je) feti. MRO 
Fh), 就 称 这 步 为 成 功 , Wo + 0 Roh, IO 以 数量 a1; 
MESHE >F (wh), 则 称 这 步 为 失败 , PRE oO) RAE, HER OL 
数量 一 8, 0 一 68<1. 不 管 娜 种 场合 , 我 们 都 进行 到 下 一 个 方向 , 并 
在 当前 点 的 周围 作 同样 方式 的 勤 探 移动 。 对 所 有 个 方向 都 这 样 
做 ， 与 Hooke-Jeeves 的 模式 搜索 法 不 同 , 现在 这 组 沿 相 互 正 交 方 
向 的 勘探 移动 一 直 重复 进行 ， 直 到 在 所 有 方向 都 至 少 出 现 一 次 成 
功 并 接着 一 次 失败 为 止 , 算法 的 这 一 部 分 称 为 斯 探 阶 段 , 一 个 由 8 
次 函数 值 计算 攀 成 的 典型 的 勘探 阶段 说 明 于 图 9.3 中 ， 其 中 圆圈 
里 的 数字 对 应 于 依次 计算 函数 值 的 点 ， 粗 线 与 虚线 分 别 指明 成 功 


与 失败 的 移动 。 ,© 
rae 
a @ o 
eee © ge 


9.3 旋转 方向 法 的 ~- 个 勘探 阶段 


完成 了 一 个 勘探 阶段 之 后 , 重新 构造 一 组 新 的 正 交 方向 ， 以 

aj, j=l, +, n RRA PR 7 个 当前 方向 移动 的 净 距 
离 . S 

人 一 ad 人 二 co 他 十 .十 Cong 

a a (9.17) 


y” = ane", 


注意 到 好 是 连结 初始 点 与 勘探 阶段 终点 的 向 量 ， 它 被 设想 是 “有 
前 途 的 方向 ， 接 着 , 通过 所 谓 Gram-Sahmidk ik (kite RB 
一 组 新 的 正 交 商量 ， 设 (9.17) 中 所 有 的 oy 都 不 等 于 0, 那么 向 量 
ui, j=l, o, nw, 是 线性 无 关 的 . 记 


w= ut, (9.18) 

A 4 

fi 9.19) 
ja] ¢ 

w= uF — [ (a?) "S44 82, (9.20) 

pa_ w? 

E= pop we 


ww S wy, jalan, (9.22) 
fi a , j=l, n. (9.23) 


这 样 得 到 的 为 一 个 新 的 勘探 阶段 提供 了 一 组 新 的 相互 正 交 的 方 
向 ， 第 一 个 搜索 方向 OC 将 通过 前 一 个 勘探 阶段 的 起 点 与 终点 , 新 
方向 的 步 长 一 般 选 得 与 前 阶段 相同 . 

可 能 有 某 些 a (在 第 7 个 方向 移动 的 净 距 离 ) 等 于 0， 在 这 种 
场合 上 述 正 交 化 过 程 必须 修改 中 一 个 不 同 的 而 且 更 经 济 的 正 交 
化 过 程 已 由 Palmer 提出 . 当中 | 一 s 对 连续 几 个 勘探 阶段 都 成 
立时 , 这 个 算法 就 可 结束 , 这 里 。 是 某 个 小 的 正 数 ， 

例 8.3.1 

考虑 用 Rosenbrock 旋转 方向 法 求 下 列 函 数 极 小 值 点 的 问题 ; 


F (G1, @2) = (m1)? + (2a)? — 83w — rimat 3, © (9.24) 
假定 我 们 从 sa=(0, OR, FHEAE RES 
动 , 即 
1 
o-(5), (9), (9.25) 


还 假设 a 一 3, 8- 0.5， 期 探 移动 的 位 置 和 结果 汇总 于 表 9.1 中 ， 
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在 两 个 搜索 方向 都 获得 一 次 成 功 并 接着 一 次 失败 之 后 ， 我 们 建立 
一 个 新 的 出 发 点 oe, DERRI, EE a=, a=, 利用 
(9.17) 到 (9.23), 得 到 


al yaa: -(1 9.26) 
wifo )+ (3) 1) = 
二 
fl eA 2h yari 
b -(1} e= Fe =( 0.7071 } we) 
3 
JF nf 2 _1 
( ) (0.4) po | ae a (9.29) 
w= 一 一 
YI V2 £ 
3 2 5 
V2 
ie 2 ee sian) 
JSF 0.7071 
Eg 


从 ar 开始 一 个 新 的 项 探 阶段 ,移动 用 其 结果 列 于 表 9.2 中 . 
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£92 FOAM 


方 市 fe 过 的 点 te R 


一 - (1.6000, 1.0000) TA 


a (1.7071, 1.7071) 成 I 
& (1.0000, 2.4142) + ik 
4 (3.8284, 3.8284) a Wik 
fe (2.0606, 1.3536) 成 功 
fa (1.0000, 0.2929) Æ kK 
£z (8.1218, 0.2929) + k 


ERAR By E FB A AE va = (2.0606, 1.3536), — 
个 新 的 勘探 阶段 将 在 旋转 了 搜索 方 杀 之 后 从 此 点 出 发 ， 玫 的 真正 
的 极 小 秆 点 在 w= 二 (2.90,，i. 人 ,此 点 的 函数 值 是 f(w*)=0. 1 

Davies, Swann 和 Campey" 修改 了 Rosenbrock 方法 ,把 上 
述 勘 探 上 阶 段 改 为 对 这 名 个 正 交 方 向 依次 进行 一 维 搜索 .搜索 方向 
的 旋转 还 如 Rosenbrook 方法 一 样 进行 。 对 其 中 的 一 维 搜索 ，[ 引 
中 推荐 用 一 种 单个 的 二 次 逼近 法 , 这 种 方法 在 上 章 中 曾 叙 述 过 . 

这 个 Davies, Swann 和 Campoy 方法 具有 一 个 有 趣 的 性 质 ， 
这 个 性 质 的 一 般 化 在 随后 将 要 讨论 的 几乎 所 有 无 约束 极 小 化 方法 
中 都 具有 基本 的 重要 性 ， 假定 被 极 小 化 的 孙 数 是 二 次 的 , 并 由 下 
式 给 出 : 

1 


f(x) =a+ bat g , ce R, (9.31) 
其 中 久 是 一 个 对 称 正 定 阵 ， 那 么 让 有 一 个 整体 极 小 值 点 , 为 
过 一 一 人 2. (9.32) 


mt Q=cl, 其 o>0 是 一 个 实数 而 工 是 -- 个 单位 阵 , 则 f(z) 一 常 
数 所 表示 的 等 值 面 是 一 个 中 心 在 ew* HERE. AE 中 任意 一 点 
出 发 , 沿 着 任何 mw 个 相互 正 变 的 方向 依次 进行 一 维 搜索 , 我 们 就 可 
以 精确 地 确定 了 的 极 小 值 点 . 我 们 用 一 个 例子 来 说 明 这 个 性 质 . 
5) 9.3.2 
HIZKERA TFR H: 
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f(z) =3(a)?+3 (ay)? — 8a, + dare, (9,33) 


et ma tot =(L, 2). BERNA 
oh—(—3, DHR. MER iE 
2 1 
C= 1 > g= 9 * (9.34) 
mes V5 
HSER A eC BML, 
F(ab + 0,08) -3(—3-+ EY (1—5) 
28 8 
~3(— 34+) +4(1-e), (9.35) 


因为 这 是 关于 变量 h 的 一 个 二 次 函数 , 所 以 二 阶 多 项 式 逼 近 将 是 
精确 的 (忽略 含 入 误差 ). (9.35) 的 极 小 值 在 


» 6/5 
外 一 一 (9.36) 
达到 , 从 而 在 如 方 站 上 的 最 好 点 是 i= j tia), 其 中 
(2) (26) _ 
一 8 十 -一 一 一 T ao (9.37) 
1 26 11 
th=1— = aE. (9.38) 


从 这 点 出 发 沿 如 方向 进行 , 再 对 下 列 函 数 进 行 一 维 搜索 以 求 其 极 
小 值 点 : 


FG +667) =3(=5 +2) + +3(- + ay 
7 6 11 a 
-ala5 六 JH -it gje (9.89) 
这 也 是 9。 的 一 个 二 次 函数 , (9.39) 的 极 小 值 在 
gb (9.40) 


30 
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达到 .因此 


1 í 1 了 1 

the tge= 5 (9,41) 
1 tt, 2 _ #2 2 
Bt 3 ete) 


TINS MAM, MCh, BO REI 

对 于 一 般 带 有 正定 阵 晶 的 二 次 函数 ， 单 是 相继 沿 着 m 个 相互 
正 交 的 方向 进行 一 轮 搜索 ， 一 般 是 无 法 确定 它 的 精确 的 极 小 值 点 
的 ne 
.有 下 列 性 质 ， 用 一 种 与 上 述 类 似 的 方法 , ER 
oe ee ee 
WOME, EER CUB RRA RADE IEF SEY FR — 
类 极 小 化 方法 中 的 第 一 个 ,对 于 B" 上 的 一 般 画 数 来 说 , 它 已 成 为 
不 用 计算 导数 的 最 好 的 极 小 化 方法 之 一 . 


9.4 ERA N 

我 们 现在 对 二 次 函数 引进 一 个 重要 的 概念 ， 它 是 整整 一 类 无 
约束 极 小 化 方法 的 基础 . 

两 个 向 景 CCR, yOR 称 为 是 关于 nxn 对 称 正 定 阵 4 的 共 
HeH tay, 如 果 

a Ay=0, (9.43) 

RINES TE RHE ( 当 4 是 wxn 单 位 阵 的 场合 ) 的 一 个 推 
T. ARAM, THRHR nxn EARS mE Z W y TE 
BS, in REA SEPA, BAR ob o 是 4 的 这 种 特 
征 向 量 , 那么 Aa? =)", 这 里 入 是 相应 的 特征 值 , 因而 


(a) "Aa? = (a) ha = A(at)™ (2) =0, (9.44) 
因此 对 每 个 wxn 对 称 正 定 阵 , EDE n AY SE EY i, 
我 们 可 以 从 Be n FREI Ie AY TA et, uP, o, tr 出 发 


用 一 种 与 以 前 介绍 的 Gram-Schmidt 让 交 化 方法 相关 似 的 过 程 来 
构造 关于 4 AeA mn 个 方向 . 


an 


zi= yt, (9.45) 
J (9.46) 
Who, e, RRP AMAR. 希望 读者 自己 证 明 ， 上 
RK RAAT n PART, 并 且 关 于 AMA BA 
ERE 2, e, g ee ea, AJR, FeSO ae S 
WY AANA TE EE, 不 过 一 些 最 有 意义 的 结果 都 依赖 于 这 个 性 质 . 
共 斩 向 量 的 一 个 几何 甫 释 如 下 ， 设 了 是 由 \9.31) 给 定 的 二 次 
pak, HHI QE, Bee ERTA vE iE fo) i 
到 极 小 值 的 点 ， 那 么 曲面 fe) 一 <( 常 数 ) 通 常 是 以 到 A B 
球面 . Ho BME Pe =e 的 一 个 点 ， 在 只 构 造 一 个 切 于 了 cz) 
一 的 超 平面 , 则 连结 可 与 x* HEF ORTOP RLY 
一 个 向 量 。 二 维 的 情形 说 明 于 图 9.4. 


#2 


atblx +t x7 Qx = 常数 


图 9.4 SF OMAR 


TEREF m hA mAIRE z, “Ts z", mA, 它们 关 
于 正定 阵 @ 相 互 共 轿 、 那 么 , 这 些 问 量 是 线性 独立 的 , 而 且 满足 下 
列 关 系 式 的 癌 量 的 全 体 构 成 E 的 一 个 m 维 子 空间 
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im 
== S\a,z5, (9.47: 
ras 
其 中 必 是 任意 实数 ， 对 于 一 个 给 定 的 点 9 ER", 满足 
w= 294 Plo, (9.48) 
$21 


(Hoeft of iem 个 线性 独立 向 量 而 ty FE EE RR) BY TE RA RE S Ae 
仿 射 集 或 线性 流 形 (在 第 和 4 章 也 定义 过 ), 称 它 是 由 点 吧 及 向 量 
; "2? 所 生成 的 ， 当 m=n 时 , 仿 射 焦 变 成 更 个 空间 R", 
现 夺 我 们 可 以 叙述 和 证 明 一 个 把 其 箔 方向 和 二 次 函数 无 约 东 

极 小 化 联系 起 来 的 重要 结果 , 这 个 结果 属于 Powell", 

定理 9.1 

F, en P BRRR ATEETAN, 则 二 
UR PA Bk 


gt 


f(a) =a4-b'x +i ae, wwER (9.49) 
在 由 点 @° CR” KE ot, e, oe E RR R E RM A TE 
a EPIRA Ee ee i FR. 

【证 明 】 这 个 仿 射 集中 的 每 一 个 点 由 (9.48) 给 出 ， 所 求 的 
BIMES Hot e tane", Heh oy 选 得 使 下 列 画 数 达 到 
#2 I), 

fia) = f(a? + Sia!) 

= f(a?) HÈT a) QDE aE]. (9.50) 
oH BY SE Se Pe Hy A EI, Act, …, oP ARR m HE 
TZA. BARA aon HC GAR), RER w it FS m pM 
问题 而 找到 ， | 

min { F(a?) HaC Qb) +h (ayer, 

j=l, e,m, (9.51) 

但 是 这 个 问题 等 价 于 求解 


ád. 


min f(t +a, j=l, =, m, (9.52) 


Pe, Em AAR, o, 2 各 搜索 一 次 极 小 值 点 将 产生 最 优 的 
ais 因而 得 到 了 在 该 念 射 集 上 的 极 小 值 点 ， J 

#m=n, HEM 9.1 推出 二 次 函数 9. 和 9) 在 Br 上 的 极 小 值 
点 可 通过 沿 交 个 非 零 的 .关于 久 相 互 共 斩 的 方向 搜索 而 得 到 . 

例 9.4.1 

我 们 用 一 个 双 变 量 的 二 次 通 数 来 证 实 上 述 结 论 ， 设 

fla) = 201)? +8 æ)? + 2a a + 201 + B83+ 3. (9.53) 

3k PF TY AS (9.49), Hp a=, b= (2, 3)", i 


4 2 
a~| : nal) (9.54) 
假定 选 (2)" (1,0), RF Q AET: + 的 方向 是 
G@)"=(—F, 1). 


我 们 来 找 了 在 由 点 t= 0, ORs, PERTH ER 
小 值 点 ,在 当前 的 场合 , 这 个 仿 射 集 显然 是 整个 空间 BR， 按 定理 
9.1, ite A Tk 8 DAAE R. 我 们 可 以 用 练 
习 8.D 所 提供 的 方法 来 进行 这 些 搜索 ， 因 为 在 这 种 场合 下 二 次 通 
近 将 是 精确 的 。 MOTI, Be BRD PLO) f+ 
G21) Wee 6}=0, =i, B=2, 而 六 (0)=3,， 了 (4) =7, 
F) =15. 因此 | 

gr (-9@+4 GEE DAB __1 (9.55) 


2((—1) (8) + (2) (7) + (—1) (15) ] 2° 
现在 沿 2 方向 进行 ,我们 来 极 小 化 20") = fl? + 627), BK 
He 62=0, 02=1, 外-=2. 而 (0) =3, (DD) -分 F,(2) =29, 
因此 
Jar (8 (8) + (4) (21/2) + (1X29) 2 


2f(—1 (3) + @21/2)+(-1(29)) i (9.56) 


这 样 一 来 ,7 ER? EWR AMES oa AT, 
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ao” = g? + G2! + OZ? 


1 1 _ 9 
0 J EEE a 
-( J+ + = . (9.57) 
0 2 2 
0 一 -IT 


读者 可 以 通过 对 了 进行 微分 来 验证 这 个 结果 . 1 

两 个 仿 射 集 SST, SET, 称 为 是 平行 的 , 如 果 它 们 由 相同 的 
FT, SRAM CSCS REDET RER. 我们 有 
下 述 定 理 . 

定理 9.2 

车 a(S) 5 at (LP) 分 别 是 两 个 平行 的 仿 射 集 5S 与 TT 上 使 函数 
了 tw)( 它 由 (9-49) 给 出 ) 达 到 极 小 值 的 点 , 则 向 量 CT) oF" (S) KR 
F QF S 和 了 中 的 任何 一 个 向 量 . 

DERI 设 z 是 在 5S 和 了 中 的 一 个 向 量 , 则 对 a=0 成 立 


LI) +az)] =0, (9.58) 
或 等 价 地 为 
[Qe (S) +b] =0, (9.59) 
类 做 地 有 
2" [Qe (T) +6] =0, (9.60) 
从 (9.60) 减 去 (9.59) 得 到 
Qla" (T) —a"(S)] =0. (9.61) 
] 


这 两 个 定理 是 证 明 下 节 所 述 的 Powell 法 所 必需 的 , Powell 法 具有 
以 后 将 要 定义 的 二 次 终结 性 质 . 


9.5 Powell 法 


前 面 介绍 的 三 种 算法 都 是 为 了 寻找 一 般 无 约束 函数 的 极 小 值 

点 而 导出 的 ,通常 需要 无 穷 次 迁 代 ， 另 一 方面 , 如 果 我 们 有 一 种 方 

法 , 它 可 以 用 有 限 步 找到 召 " 上 二 次 国 数 的 极 小 值 点 ,那么 这 种 方 
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EMT et ESE BS) — A E A N. 
在 本 章 的 其 余部 分 和 下 一 章 中 我 们 提供 一 理 类 方法 ， 这 类 方法 都 
其 有 二 次 终结 的 性 质 ， 用 这 种 方法 来 找 R 上 由 《9.81) 给 定 的 具 
有 正定 阵 @ 的 二 次 函数 的 极 小 值 点 时 ， 至 多 在 % 步 内 终结 . 这 个 
由 一 个 算法 规定 的 “ 步 将 广义 地 解释 为 从 R" 中 的 一 个 点 移动 到 
另 一 个 点 , 显然 在 许多 情形 , 这 些 移动 只 有 通过 一 个 无 穷 的 过 程 才 
能 精确 地 进行 , BO, 当 一 个 算法 由 若干 个 请 Br? 中 某 个 方向 极 小 
化 一 个 函数 所 确定 的 步 所 组 成 时 , 便 是 这 种 情形 .因此 , A iH i 
金 分 害 法 来 沿 着 一 个 方向 求 一 个 二 次 函数 的 极 小 ， 就 要 作 无 穷 次 
函数 值 计算 . 另 一 方面 , 如 用 第 8 章 所 述 的 多 项 式 焉 近 法 (忽略 舍 
入 误差 ), 便 可 通过 有 限 次 算术 运算 得 到 这 一 二 次 函数 的 精确 的 极 
小 值 点 ， 然 而 , 一 般 地 讲 , 一 维 极 小 化 是 一 个 无 穷 的 过 程 . 

开始 时 ，Powell 法 作为 一 个 经 验方 法 来 介绍 ， 正 如 本 童 前 些 
方法 一 样 ， 它 的 基于 共 斩 方 向 的 基本 原则 将 在 本 节 稍 后 加 以 阅 
明 . 

Powell 法 的 第 一 个 和 基本 的 做 法 可 叙 述 如 下 ， 过 程 的 每 
一 阶段 由 m1 个 相继 的 一 维 直 线 搜索 构成 , 先 沿 着 m 个 线性 独立 
的 方向 ,然后 沿 闭 由 这 一 阶段 的 出 发 点 与 最 好 点 (在 %* 次 一 维 线性 
搜索 后 得 到 的 ) 相 连结 的 方 铅 。 在 这 些 搜索 之 后 ,前 7 个 方向 之 一 
被 代 之 以 这 第 w+ 竺 个 方向 ,然后 开始 一 个 新 的 阶段 . 

这 方法 的 第 天 阶 段 用 下 列 步 又 给 出 设 只 一 站 GE 下 是 第 8 
阶段 的 出 发 点 ， 并 设 给 定 了 个 线性 独立 的 方向 A, …， 小 《对 
k= 1, 通常 选 坐 标 方向 ). 对 了 一 十 ++, n, 找 数 OG LE 


f Gat 645) = min f (314-645), (9.62) 
& 
Betto, j=l, ++, m (9.63) 
A, jal, e, ni, (9.64) 
Att a fee kK (9.65) 
PR Onsa fi 
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ft Ones be —05)) = min Ft + Ones ts ~ $6), (9.66) 
而 且 令 
ay = E+ Oper (in ti), (9.67) 
F te ay |<e EB s>0 是 某 个 预先 给 定 的 数 )， 则 停止 ; A 
则 , 进入 第 十 1 阶段 . 
这 个 算法 的 少数 几 步 在 图 9.5 中 说 了 明 ， 其 中 求 极 小 的 是 一 个 
BLA BEY -— AR PR, 


9.6 Powell 法 


以 后 将 证 明 Powell 算法 可 在 至 多 nn 个 阶段 中 找到 RY 上 具有 
正定 阵 急 的 二 次 函数 的 精确 极 小 值 点 ， 只 要 对 于 大 一 1 n, 这 
些 搜索 方向 di, e, AD 都 是 线性 独立 的 . 


4 9.5.1 
道 过 极 小 化 下 列 双 变量 二 次 函数 . 
f(a) ~= 3 (a1)? + (a)? — ewa 2, (9.68) 
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及 说 明 Powell 法 ， 这 函数 的 极 小 值 点 在 z=(i, 1). BEM 
a == (—2, 4) 出 发 沿 荐 坐标 方向 进行 搜索 : 


1 1 I 0 
gee eel?) Ga 


第 一 个 极 小 化 是 沿 At 方向 : 
min fiti) = 二 (一 2 二 603 十 可 (9 
—4(—24+6,)—-2(—2+4,), (9.70) 
在 入 4 ThA, A t= (2, 4). BEE, He 4a A Me: 
min f(#}+ Od) -2 (2)? 七 于 (4 十 go)? 一 204 十 ga) 一 和 
(9.71) 
得 到 o= 2. Bit = (2, 2), 从 而 


o(F)-($) om 
我 们 再 沿 这 个 方向 进行 极 小 化 ， 
min FHA) = 24-404)? +5 ~ 307 
— (2+493)(2—285) —2(2+463). (9.73) 
HRA EO -2 Ali 


2_ 8 26. 
oa ae © ad (9.74) 
Bn 0 4 38 a . 
+t 17 


SSAA HER BGA, BORA a A ER A ii 
(9.64) K (9.65) WA 


— 0 = 4 
£ -(3}, a-( 23 ) (9.15) 
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我 们 求解 


f 26 1 
min f+ 048) = 5 一 三 es +Y 


2\17/ 2 
26 / 38 52 
76 
“tyr t*) ap (9.76) 


Rad- -ie a (B, 3B). 其 次 ,求解 
min f (+642) = (52 +402) + $ z -28 ) 


(26 1140, )( 28 —29,)-2( 28 +-46..), 


(9.77) 
最 优点 在 好 一 一- 因此 , a-(20, 28). 
现在 , RHR AREER BZA 
870 _ 26 72 
289 17 289 
& i inal 3 (9.78) 
478 88 168 
289 17 289 
并 求解 
_ 8/870 72 ,\?,1/478 168, \2 
min f akasa “(+ a0) 
_ (370 72 478 168 
Ce 289 4s) 289 289 6s) 
370 _ 
—2( 355 289 5 sy e) ete) 


REREN- HT — C1, 1)， 因 此 , 正如 所 断言 的 , S 
数 的 精确 极 小 值 点 在 两 轮 选 代 中 找到 ， J 

注意 ， 这 个 例子 中 的 搜索 方向 AE a A=, 2) 是 线性 独立 
的 。 这 个 条 件 十 分 重要 , 因为 有 例子 可 以 说 明 : 如 上 所 述 的 Powell 
方法 的 第 一 个 做 法 可 以 经 m 轮 迁 代 仍 未 到 达 上 的 极 小 值 点 ， 甚 至 
可 能 经 任意 次 类 代 还 是 达 不 到 它 ， 
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fi 9.5.20 
SRR? 上 如 下 定义 的 函数 了 
F(@1, wa, w3) = (81 ~ wa Hwa) t (—ay tartan)? 
十 (oa 十 oo — m)’, (9.80) 


这 是 一 个 严格 凸 的 一 次 函数 ， 其 有 一 个 唯一 的 极 小 值 点 = (0, 
0 0)， 取 哎 = ( 豆 , 1, 5), 并 用 下 列 方向 开始 施行 Powell 方法 ， 


工 0 0 
0 0 1 


前 三 步 及 其 结果 汇总 在 表 9.3 中 : 


表 3.3 用 Powell 方法 的 前 三 步 


函数 值 7 (5) 


2 


新 的 方向 将 是 


号 一 站 一 


(9.82) 


| 


| 

w= m= |e 
| 
| 

elw wilh © 


H > 
ol le 


因此 得 到 


0 0 0 
1 0 _2 
A= , B= , = 3 (9.83) 
0 1 -2 
r 


注意 , ARAM WR IT TET O, RENA 
即将 到 来 的 点 的 第 一 个 分 量 都 将 保持 为 却 ， 这 样 就 永远 不 能 达到 


真正 的 最 优点 办 = (0, 0, 0), 其 原因 是 , te 下 (9 一 二 2, 3) 是 线 
性 相关 的 , 因而 不 能 张 成 整个 空间 R, ] 

读者 可 以 试 着 去 构造 这 种 类 型 的 其 他 例子 ， 只 要 使 搜索 的 出 
发 虑 已 是 函数 治 第 一 个 搜索 方向 的 极 小 值 点 即 可 . 

现在 我 们 来 说 明 , 怎样 可 用 定理 9.1 与 定理 9.2{ 它 们 涉及 共 
HA Wal BY PEt) SK ERY Powell 法 在 适当 假定 下 是 二 次 终结 的 ， 假 
设 已 经 给 定 了 Pr 上 一 个 带 有 正定 阵 @ 的 二 次 函数 了 ,一 个 出 发 点 
28E€ RB"， 以 及 n% 个 线性 独立 的 方向 a, +, A ETR 
段 的 步骤 之 后 , RNAT —PI =h 4 及 第 二 阶段 的 新 
RU ZO hte. TERS, 如果 总 中 的 一 个 点 在 ?个 线性 独立 方向 
上 都 是 最 优 的 ， 那 末 它 必 是 该 二 次 函数 的 整体 最 优点 设 he thy 
即 方向 区 不 是 零 . 由 (9.67) 知 , xk oe Fe FT NE — RAM 
再 设 方向 Oi, …, 由 是 线性 独立 的 , 就 可 以 达到 一 点 癌 , 它 也 是 沿 
2 方向 的 一 个 极 小 值 点 ， 而 且 包 含 在 一 个 平行 的 仿 射 集中 ， 根 据 
定理 9.2, FA Pho RF QR AW, MEREEN 
b> Bre 5d PNET IES KF? ASE PEROT Fy 2", 
2 2 BAI At, en Mian, at, vee, 2 RPE, 那么 根 
括 定 理 9.1 及 定理 9.2， 方 向 ott att — a8 与 t,o RA 
KHAR. ERT a AME a, 所 有 的 搜索 方向 是 关于 
Q 相互 共 轿 的 , 因此 根据 定理 9.1, 这 到 了 了 在 如 上 的 极 小 值 点 . 


9.6 避免 线性 相关 的 搜索 方向 
Powoll 注意 到 , 邮 使 在 不 如 例 9.5.2 那 样 极端 的 情况 下 , 他 的 
$2 


方法 也 可 能 选取 到 近乎 线性 相关 的 搜索 方向 ， 特 别 是 有 大 最 变量 
时 更 是 如 此 , 这 种 可 能 性 对 收敛 性 来 说 将 有 严重 的 后 果 . ATÈ 
免 这 个 困难 , 他 提出 了 这 个 方法 的 一 种 修改 . 这 个 修改 了 的 做 法 
不 再 具有 二 次 终结 性 质 , 但 它 的 性 能 一 般 却 是 非常 满意 的 . 
修改 的 Powell FY (又 为 Sargent™™ 稍 加 改善 ) 的 第 个 
人 阶段 用 下 述 规则 给 定 ， 再 一 次 用 ek 一 站 表示 第 妈 阶 段 的 出 发 
点 ， 并 设 给 定 了 m 个 线性 独立 的 方向 Ai, …， Aa 首先 ,正如 第 一 
种 做 法 那样 , 对 j=l, e, WER, ER, RIB ER m 使 得 
fF Gna) S Cn) = max {f aS. (9.84) 
& dinn it E le l 委 吕 就 停 二 ;否则 找 一 个 数 asti 使 得 
F(t tnsAier) = min f itana), (9.85) 
并 且 记 <a totana. Alek ob | Se, 就 停止 ,并 认为 
Ea al —~P RMA: 否则 , 车 


. F(R) — FU) | 86 
[onl < [FF] 6 (9. ) 

bul Bie 
Atag, j=l, =, n, (9.87) 


换 句 话说 ， 第 《二 1 阶段 的 搜索 方向 保持 与 第 5 阶段 相同 。 车 
《9.86) 不 成 立 , 则 取 


jl (9.88) 
H= a, Jm, e, 2, (9.89) 
并 进入 第 十 + 阶段 . 


$i 9.6.1 

$2477 FS Bl ey KKA KHA T W Powell 法 ， 第 一步 
SRA. TWBNM AEH RRR em; 因此 
m=2, RNA 


出 一 (9.90) 


eje ww © 
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BER tol RBM 15a gga) FAN 
aj = 2, Bist 
f 


hoje 


23 
3 
wh 村 
=| = | (9.91) 
1 
4 


toj 一 


而 (8) = 于 .现在 


1 \1/2 
o) 一 +) bake 2-7 1/2 
3 


因为 
a>(2), (9.93) 


可 以 看 到 (9.86) 并 不 成 立 ， 相 应 地 , 新 的 方向 将 是 


0 
1 0 2 
B=| 0}, gs0], &=| “3 | (9.94) 
0 1; 2. 
9 x 


而 且 这 些 向 量 是 线性 独立 的 .下 一 阶段 的 计算 留 给 读者 。 J 

我 们 现在 来 导出 某 些 结果 ， 通 过 这 些 结果 可 以 前 明和 修改 的 
Powel 方法 .我 们 已 经 看 到 , PAT KER — hk BAH 
小 值 点 是 我 们 所 希望 的 。 首先 , 我们 要 指明 一 组 向 量 关 于 一 个 正 
CNMI ATER SH. Ek, 我 们 将 会 
看 到 , 对 于 要 寻找 极 小 值 点 的 二 次 函数 的 Hess 阵 @ 来 说 ,用 修改 
的 Powell FREFTEM BRA WEG IFRS, 而 且 在 每 次 
和 迭代 中 这 些 方 回 是 线性 独立 的 。 在 指出 了 这 个 方法 对 二 次 函数 的 
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FREZE, RANKS BE A T I 
性 . 

先 回 亿 一 下 正 交 阵 的 定义 及 其 某 些 性 质 . 

AREE P 如 果 适 合 PPP= PPT =I CARRE), MERE 
DEZES, TESS ERE eK PE JR P= P? 和 |det P| =1. 
王 的 每 行 与 每 列 都 是 单位 长 度 (规范 化 了 ) 的 向 量 。 进一步 说 , P 
是 正 交 的 充 要 条 件 为 卫 的 行 与 列 是 相互 规范 正 交 的 . 给 定 任意 向 
ite, 令 y= Pe, Wiyl-|el. eke Sy 是 任意 向 量 , 令 a= Pe, 
y= Py, Wey y =P Pysy MEEF ERTAN 
FER. PR, HA P, ERE. X 
FEE YEAH HES BS ARE RAY RE A 
书 .下面 是 Powell" 的 一 个 结果 , 它 用 一 个 行列 式 的 值 来 给 出 一 
组 搜索 方向 接近 于 相互 共 斩 的 程度 的 - .个 适当 的 度量 .这 个 结 
既 构 成 了 Powell 方法 的 修改 了 的 做 法 (正如 上 述 ) 的 基础 , 也 构成 
了 本 节 稍 后 将 概述 的 一 个 新 算法 的 基础 . 

定理 9.8 

设 休 是 一 个 实 的 %xm 对 称 正定 阵 , 而 四,…, a fen PDE, 
它们 按 下 式 意义 是 规范 化 的 : 

(#)'Gdi=1, i=1, =, n, (9.95) 
设 刀 是 以 向 量 几 AIERBE, WARM RTS Y 
HEHHE, jdet D 达到 它 的 最 大 值 . 

【证 明 】 我 们 先 证 明 : 车 (9.95) 成 立 , 而 且 |det DD| 达 到 最 大 ， 
Wd DESPA Ro SP Awenn, 它们 关于 人 G 
ARTE HB, 也 即 

(a TGA 0, (9.96) 
因为 G 是 正定 的 , 它 有 一 个 平方根” 矩阵 B; 也 就 是 说 , @= BB, 
用 Cauchy-Schwarz ASR", 

| (d*)"Gd? | = | (d*)?B" Ba? | 

< [(BAH "BI"? [ ( Bd?)? Bd?) ¥/ (9.97) 
= [(d*)?Gd*]*?[(d?)"G@a?]¥? = 1, (9.98) 
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因此 1c| <1, 等 号 成 立 的 充 要 条 和 件 为 


Fan ee (9.99) 
(a*)? Ge » 


25(9.99) Ry, det D=0, 显然 |det DI 不 是 最 大 ， 现 在 设 0 之 ic! 
达 1， 用 下 式 定义 新 闻 量 全 


a qi— a 
Jis, TES Ona Ws (9.100) 


定义 新 矩阵 D. 
P= [6, d, =, da), (2.101) 
容易 验证 中 满足 (9.95), Ti A 
ldet Ñ| = [1 — (c)?]-/2| det D| > [det DI, (9.102) 
EE ‘det 只 | 并 未 达到 它 的 最 大 值 , 
反之 , 设 四, + @ 5d, 中 是 不 同 的 两 组 向 量 ， 它 们 都 
关于 kym ACM 9.95) MIB, TEE ph nxn KE 
P= [p], 使 得 


d= 3) pt, es (9.103) 
HD BLE a 为 列 作出 的 矩阵 , 那么 
det D=det DdetP, (9.104) 
因此 , 我 们 必须 证 明 |det P| =1. 
现在 
(a) tad = > > pupul i) Gd (9.105) 
=$; > PD = $ Dis Pug = res (9.106) 
这 里 , 4 r=s h} 6.=1, WMA rA R} n= 0. M(9.106) Ba, 4 
KAP HIR n TARREGA, A P EAEE, 
hibit {det P|=1. J 
让 我 们 应 用 上 述 结果 于 修改 的 Powell 法 , 提出 这 个 向 法 的 目 
的 在 于 避免 搜索 方向 组 性 祖 关 的 可 能 仁 ，。 假 定 有 # 个 线性 独立 的 
搜索 方向 4, e, l 并 假定 
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Lim pidi, j=1, =, 0, (9.107) 
办 而 二 满足 (9.95)， 因 此 
(HY GA = Cus)”. (9.108) 
回想 


ker = (a- tj) = =>) 05 Aj = E Hindko (9 ‘ 109) 

这 里 ek 与 dhe 选 得 使 dio 满足 规范 化 条 件 (9.95)， 设 矩阵 D" 
用 下 式 给 定 ; 

DP= (di, n'y dr]; (9.110) 


PUD Ag BRD HA m Ald, 2H. BE 
Hi (9.107) & (9.109), 


k= -3 Ly di, (9.111) 
1 
Bal at 
p= lat ap Pimdi 4., + Od nd | 
i Maen 
站 : 
+ — =, nhs da . 9.112 

Hisi | ) 


根据 线性 代数 知道 ， 当 把 行列 式 中 一 列 的 某 个 偿 数 加 到 另 一 
列 时 行列 式 值 不 变 , 当 用 常数 乘 矩 阵 中 一 列 的 诸 元 素 时 ， 相 应 的 
EPIR c, 因此 从 (9.112) 得 到 


dot D= Palin dot DE, (9.113) 
Hk+ 


HTAA n ARERR, EA 9.8 提示 我 们 应 选取 指标 
M, 使 得 det D*** /det D* 的 绝对 值 有 最 大 的 增加 ; 迅即 


| spon, | = max ALIAR (9.114) 
注意 到 若 
bo op | <1, (9.115) 
ua 


ME m 个 搜索 方向 OS, 被 代 之 以 Mi BY, [det D+ /det D*| 21 
不 会 增加 ， 对 于 由 (9.31) 给 出 的 二 次 函数 请 可 以 指出 有 


57 


PEDS = 8" Ha) + ERANO 6145), 


(9.116) 
WA tf IHE FCC + O45) FEAR, PP 
(b+ QH)TA = 0, (9.117) 
由 (9.107) 及 (9.108) 得 
FF) OS, (9.118) 


因此 (9.114) 中 表达 式 取 极 大 的 指标 m, 对 应 于 在 这 个 算法 的 第 
阶段 中 产生 最 大 的 函数 值 减少 的 搜索 方向 , 正 象 (9.84) 所 给 出 的 . 
容易 证 明 


POD- =- (alan wha), (9.119) 

从 而 不 改变 搜索 方向 的 条 件 , 正如 (9.115) 所 给 定 的 , 可 以 改写 为 
Ed 

[onl < [ee pay) ， Sa 


这 正 是 (9.86). 显然 ,如果 从 一 组 线性 独立 的 方向 出 发 ,随后 的 接 
索 方 向 将 保持 为 独立 的 ， 而 且 按 Powel] FARES, CIB 
FRYER QRH. 
WRERAMEE KATEZ, MEMES G, A 

而 就 不 能 规范 化 方向 i, tA RE PR UE RL Se FF (9.120) 可 使 
[det D*| 的 值 不 减 小 、 虽 然 上 述 修 改 的 Powell 方法 在 极 小 化 一 般 
函数 时 是 十 分 成 功 的 中， 但 是 为 了 保证 搜索 方向 的 线性 独立 性 ， 
条 件 将 稍 加 修改 ， 为 了 规范 化 , 我 们 可 以 选取 任何 固定 的 矩阵 G, 
最 简单 的 选取 显然 是 G=). TE, HTF k=l, 2, e, 我 
们 要 求 

(d*)"d§=1, j=1, ++, n, (9.121) 
而 

wa |, j=1,., n, (9.122) 
方程 (9.113) 变 成 
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rT Rem 


det Dr+1= oe CA 2l det Dr (9.123) 


现在 假定 
idet D*| >s, (9.124) 
这 里 8 是 一 个 正常 数 . 那么 被 A 替换 药方 向 的 指标 m 将 使 得 
(Onl All 一 名 一 成 -一 max | i-a l (9.125) 
mi Hwg 
[det D¥#2| -的 e za [det De| <e, (9.126) 


Fil 
那么 第 ktt Te ae 与 第 阶段 相同 .这 个 算法 
属于 Zangwill?”, 可 概述 如 下 ， 
纵 定 sn 个 线性 独立 的 搜索 方向 A, e BL KPH RA OE 
J 上" 和 一 个 正 数 8, 使 得 
|det D*| >s, (9.127) 
这 方法 的 第 阶段 由 下 列 步 又 构成 . 
1. 与 Powell ana Witt 此 gil soo, atl, Roe. 
2. 找 指标 m Ely- tH all(ga1, «+, %) 达 到 最 大 . 
3. #% 


Idet De+1| Idet D* | >e, (9.128) 

ig Ataf j=l, e,m, jan, (9.129) 

Ait Rn, (9.130) 
HOV) 7 

ye ee eee (9.181) 

ae det D*+ = det D*, (9.132) 


再 进入 第 8 十 1 阶段 .算法 的 结束 条 件 可 以 与 Powell 方法 一 样 . 
我 们 现在 证 明 , 对 于 连续 可 微 严 格 伪 凸 函数 ,上述 方 法 收 伍 到 
它 的 极 小 值 点 ， 应 注意 这 些 函 数 的 全 体 比 具有 正定 矩阵 @ 的 二 次 
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函数 类 要 大 得 多 .。 证 明基 于 Zangwill? (Abaya ea) 和 
Daniol™ 的 工作 ， 

首先 , 我 们 有 下 面 直接 的 结果 ， 

引 理 9.4 

HNE k, 搜索 方向 dt, ---, 懂 是 线性 独立 的 . 

DTE) 对 =1， 由 假设 可 知 引 理 是 真 的 ， 对 =2, 3, …， 
由 步骤 3 RITA dot D*|>e, 1 

在 下 面 讨论 中 , eK OAR Abi, 例如 K*) 记 上 自然 数 的 一 
个 子 序列 .记号 CE RRE 是 KK 的 一 个 子 序列 .假定 我 们 
Bip}, 4EK, 它 表示 通过 取 XEK 来 构成 下 的 一 个 子 序列 于 
Sep}, KEK, BWM ACK 加 1 而 构成 的 pr 的 子 序列 ; 

引 理 9.5 

对 任何 子 序列 K, 有 一 个 K*cK, ae 

. lim {dj}=dj, j=l, (9.133) 
方向 d? 是 线性 独立 的 ， mHC) dj=1, 3 一 1， 

DER] 因为 他 用 (9.121) 规范 化 ， 和 
RE. AA? KICK, 789.133) xe Aap )ap= 1. 另 
外 设 

Jim {|det D*|} = |det[a?, ---, d&]|=|det D°], (9.184) 
因为 对 所 有 的 有 |det D| >, 所 以 {det D| >e, Ait dj ZA 
独立 的 。 

现在 回忆 一 下 第 6 章 关于 强 拟 同 函数 与 严格 Oh mh oe Be BY ze 
x. 下 上 的 一 个 实 值 函 数 了 称 为 是 强 拟 凸 的 ,如 果 对 任意 两 点 
wie” 和 任意 的 G10, go> 0, ar ga=1l A 

Flg + gaw) <max[ f(a"), FY. (9.135) 
它 称 为 是 严格 伪 凸 的 , 如 果 它 是 可 微 的 , ER e, 
(ota) VP (et) =0 BR DSA. (9.136) 
在 第 6 SPS PR eR 上 (或 它 的 某 个 凸 子 集 
十 ) 达 到 它 的 极 小 值 的 点 不 多 于 一 个 特别 地 , 这 个 结论 对 于 严格 
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定理 9.6 

设 了 是 瑟 上 一 个 连续 的 强 拟 凸 函数 , 从 任意 点 o 出 发 , 对 它 
用 上 述 方法 进行 极 小 化 ， 假 定 水 平 集 

SCF, #3) = {eime R", flr) SF)} (9.137) 

BAAN, BBA, 4k co mM EE —TR RO te FY 
jH k oo 时 的 一 个 极限 点 ， 对 于 每 一 个 这 样 的 极限 点 ， 存 
在 着 个 线性 独立 的 方向 dl, e, d, 使 得 对 一 切 0 有 


FOSSE), j=l, e,n, (9.138) 
【证 明 】 SHEATH K, u URI — 7 KOCK, fF 
lim {t} =}, j=0, =, n, (9.139) 
我 们 现在 来 说 明 如 = 如 +。 从 算法 可 知 , WPA k=, 2, e, 
JOD SF), 3=0, «+, 2-1, (9.140) 
WA SAS) 生产 此 ) 。 
BAFFI) EAHA, 


lim {f (6)} —lim{FG)}, j=0, =, nl, (9.141) 
由 了 的 连续 性 , 得 


lim {F(t} =f rr 3 (9.142) 

tim (FGD) =F). (9.143) 
对 所 有 6,41, 我 们 有 

Ft) <fG + Byi2.d¥ 1) y (9.144) 
再 由 连续 性 , 对 所 有 的 6;+1 有 


FUR = FO EF + Da), 9-0, =, n1, (9.145) 
如 果 iA, 那么 函数 了 沿 方 问 dy 在 两 个 不 同 点 达到 极 小 ， 因 
Of BWW, 由 (9.1356) 推 出 


fg? + attr) <F (4) =F Ga), (9.146) 
得 到 了 矛盾 , 因此 gah. BRE, 
fae {f= ipa = 12, (9.147) 
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因此 , 对 所 有 fio 
FESS), j=l, e,n (9.148) 
而 由 引 理 9.5 可 知 d 是 线性 独立 的 ， J 
推论 9.7 
假定 定理 9.6 的 假设 成 立 , 并 设 还 是 连续 可 微 的 , Mt {4} 
的 任何 极限 点 有 Vf) =O, 
GE] 由 定理 9.6, 对 一 切 急 有 
FOE) <F CEO TO j=l, 2, (9.149) 
或 
FOOSE) + Od VF (2° +-28,d5), (9.150) 
KH AC [0, 要 .使 用 类 似 于 证 明定 理 2.8 时 用 过 的 推理 , 可 以 断 
定 
(BYVI(P)=0, j=1, =, m, GQ) 
因为 四 是 线性 独立 的 , 因此 必定 有 YYF(z)=0， 1 
WEH”, 若 在 上 述 推论 中 加 上 假设 ， 集 {zw:Yf(2) 一 0} 不 
包含 闭 联 集 (了 闭 联 集 是 一 个 闭 集 ， 它 多 于 一 点 *， 却 又 不 能 表示 成 
两 个 非 空 不 相交 闭 集 之 和 和 集 ), W A. 因此 如 果 由 VF(?)=0 
可 推出 如 是 一 个 连续 可 微 的 强 拟 凸 函数 的 唯一 的 极 小 值 点 (该 条 
件 显然 为 严格 伪 凸 函数 所 满足 )， 那 么 便 完 成 了 收敛 性 的 证 明 . 
Zangwill 已 经 详尽 地 阐述 了 这 种 类 型 的 方法 ,并且 发 展 了 一 个 
具有 二 次 终结 性 质 和 上 述 收敛 性 质 揭 类 似 算 法 . 因为 Zangwill 的 
算法 类 似 于 前 面 所 述 的 算法 , 还 因为 从 计算 的 观点 看 , 它 不 象 是 优 
BA, 所 以 关于 进一步 细节 请 读者 参考 [71]. 


9.7 进一步 的 共 轿 方向 型 算法 


另外 两 个 不 用 导数 的 无 约束 极 小 化 算法 在 此 给 出 。 首 先 我 们 
PIR LEA Powel 的 一 个 结果 , 它 涉 及 到 使 搜索 方向 趋 于 相互 共 
绒 的 一 种 新 方法 .- 这 个 结果 可 以 作为 一 个 不 用 导数 的 新 的 极 小 化 
算法 的 基础 第 二 个 论题 涉及 到 多 维 极 小 化 的 序列 同时 性 分 批 型 
” * EE: aeRO, 
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搜索 方法 、 这 个 方法 可 以 看 作 是 Powoll 的 第 一 个 方法 对 于 其 有 
平行 算术 处 理 器 的 计算 机 的 一 个 推广 . 
下 列 结 果 属 于 Powell, 
定理 9.8 
BM, OB A (9.95) 的 向 量 ， 并 设 
卫 =[2wj 是 一 个 正 交 阵 ， 用 下 式 定 义 一 组 新 向 量 : 
d- È py, isl iw. (9.152) 
并 应 用 规范 化 公式 得 
at 
“TOG 71/2 ° 
其 中 G 一 [gw] 是 一 个 对 称 正 定 阵 ， #0 DE Â AIMERA 
及 必 作 为 列 的 矩阵 , 则 
Idet D| = |det D|. (9.164) 
【证 明 ] (9.152) R14 D=DP", Kp DEAE WH 
成 的 矩阵 。 于 是 


(9.153) 


Idet D| = |det D| |det P| = jdet D}, (9.155) 
{det P| = laet DL, (9.156) 

这 里 AAS BONES 
HT = [(d*)"G'd*)} [ (d?)*G'd?] + a Gu"]. (9.157) 


我 们 必须 证 明 H< AA G 是 正定 的 ,五 的 每 一 项 都 是 正 
的 ， 因 此 利用 关于 算术 平均 值 与 几何 平均 值 的 不 等 式 , 得 到 


n<|S ayaa (9.158) 
由 (9.95)、(9.152) 及 了 的 正 交 性 ,我们 得 到 
Sia") "@d! = 3 3: $i galið; (9.159) 
<2 3S S grupid pmd? (9.160) 
Èd) aden, (9.161) 
] 
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上 上述 定理 表明 , 如 果 我 们 用 一 个 正 交 阵 P, 把 一 组 当前 的 搜索 
方向 (d, …, d") 通过 (9.152) 及 (9.153) 改变 到 一 组 新 的 方向 
(中 ，…, 办)， 那 么 这 组 新 方向 将 至 少 同 祥 "' 接 近 ” 共 辑 性 ， 这 里 的 
“接近 ”用 当前 方向 的 行列 式 值 来 度量 、 因 此 内 要 有 一 个 适当 的 矩 
阵 G, 就 可 以 用 (8.1527 和 (9.153) 和 作为 更 新 搜索 方向 的 一 个 规则 . 
相当 有 趣 的 是 , 对 于 n=2, Powell 找到 了 一 个 正 交 阵 


To a T 1 1 
cos sing Wi} -Ta 
Pa = , (9.162) 
agit ee oon Ee 1 =a. - 
4 4 Jl V2 


它 把 任意 两 个 方向 d, d (EJAY BRIE SEE G 按 (9.95) 规 范 化 ) 变 
换 为 关于 8 共 思 的 方向 Â, d, 注意 ，Peo 是 独立 于 有 关 的 方向 
及 甜 阵 的 . 


$i 9.7.2 
设 
1 
4 2 2 Y 
e=] | Gh = , dt= . (9.163) 
2 16 1 
9 4 


HE d PKS 是 规范 化 的 , HENKT SG HEH. W 
FER Pra 由 (9.162) 给 出 .那么 由 (9 .本 2)， 


1 
z5 
dt = dtt d = 9.164 
VI" abf cies 
4/2 
1 
-lap 1 g- a : (9.165) 
V2 ~2 1 | 
4 oo 
(I'a = 5, (d3) Gd? R (9.166) 
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因而 , 由 (9.153) 得 


1 1 
| vio E 
d= 1 上 d= ] 上 (9.167) 
. 24/10 2/6 


它们 关于 G AL Re. J 

了 Powell52 并 未 通过 精确 地 陈述 一 个 新 算法 来 详细 说 明 上 述 
定理 中 的 概念 ， 然 而 我 们 可 以 设想 如 何 根 据 定理 9.8 来 建立 一 个 
算法 . 

这 样 一 个 算法 的 成 功 看 来 将 依赖 于 估计 二 阶 导 数 和 计算 
(9.153) 中 的 分 母 ， 对 于 由 (9.31) 给 定 的 二 次 函数 , BRAG—-Q. 
对 于 一 个 一 般 的 函数 ，G# 必须 是 Hesse 阵 的 一 个 估计 假定 我 们 
用 了 在 一 点 入 GE 总 周围 的 Taylor 展开 式 作为 任意 实 函 数 了 的 二 
ik eH He HT 

flo) f(a") Hea" Vf (a) Hiwa") VI (a) (@—e"). 
| (9.168) 
对 于 一 个 给 定 的 点 4 及 方向 He" ef (et+OO RNR BH 
Wi, 也 即 et =at 0d. WR 
| avs (a ax Le (9.169) 
这 个 关系 式 在 菜 些 迁 代 方式 中 可 以 用 于 (9.153)、 这 里 可 以 假定 ， 
E G <0, Wl PVF (d=. 

至 今 尚 没 有 基于 上 述 定理 的 数值 经 验 可 供 引 用 ， 不 过 我 们 相 
信和 这 个 结果 是 重要 的 , 基于 它 的 新 方法 最 终 将 会 出 更， 

正 象 在 一 维 最 优化 的 情形 一 样 ， 我 们 用 一 个 分 批 型 搜索 方法 
来 结束 本 章 , 这 个 方法 用 同时 进行 一 维 最 优化 来 推广 Powell“? 及 
Zangwill?7) aye. 这 个 外 Chazan、Mirankercal 提出 的 算法 是 
六 使 用 于 具有 平行 算术 处 理 器 的 计算 机 中 而 建立 的 。 事实 上 , È 

AAR-AERAM, 并 具有 二 次 终结 性 质 ， FANCY ROR 
SWEAR T REA Ste, 
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我 们 对 极 小 化 BY 上 一 个 无 约束 画 数 了 的 情况 来 叙述 这 个 算 
法 ， 然 后 再 通过 一 个 例子 来 说 朋 。 设 好 e, 如 是 RY 中 由 个 单位 
长 度 的 线性 独立 方向 (通常 就 取 坐 标 方向 ), RHE at, …, a ER 
中 % 一 1 个 方向 ,并 假定 已 给 定 一 个 初始 点 如 EE， 希望 选取 导 使 
之 也 是 线性 独立 的 ， 在 第 万 轮 先 代 中 ,我 们 有 方向 A, …, a 
个 点 站 及 一 个 整数 *，1<ysm， 设 


ak =u, (9.170) 
定义 区 个 点 如 下 : 
Ei 
B= tot Bie, j=l, =, n. (9.171) 
ter 


然后 从 点 pL o DRI RI SAI el 长 同 时 进行 w 个 的 极 小 
化 ， 这 就 是 说 , OL +, On EB 
FBS + OA) ~ minf (H+ zi), j=l, e,n, (9.172) 
下 一 步 是 到 
tt a ok + Olek, - (9.173) 
aft =a t (Oae j=l, e, nt, (9.174) 
车 +<n, 就 把 指标 了 增加 1 否则 ,， 取 ?= IT， 进入 第 8 十 1 轮 迭 代 ， 
这 个 方法 的 少数 步骤 在 图 9.6 中 说 明 . 
这 个 算法 的 主要 目标 是 用 同时 线性 搜索 来 减少 计算 时 间 ， 因 
为 Powell 方法 及 有 关 算法 的 最 费时 间 的 部 分 是 一 维 极 小 化 步 又 . 
为 了 极 小 化 一 个 BR" 中 的 二 次 函数 所 需 的 线性 搜索 数 是 (mw) 阶 的 . 
如 果 每 个 一 维 极 小 化 需 一 个 单位 时 间 , 那么 由 于 算法 的 序列 性 , 对 
于 二 次 终结 就 要 有 M 个 单位 时 间 . 另 一 方面 ， 上 述 Chazan- 
Miranker 的 同时 -序列 算法 为 了 完成 同一 任务 只 需 半 个 单位 时 间 . 
例 9.7.2 
为 了 对 9.5.1 的 二 次 函数 说 明 Chazan-Miranker 算法 ， 寻 找 
下 列 函 数 的 极 小 值 点 ; 


f(a) = 3 (m)? T: CN (9.175) 


BERMA 如一 《一 2 HHE. E 
66 


图 9.6 同时 -序列 的 非 梯度 算法 


1 0 —1 
(3) (em 


Wr=1, Azs, (9.171), 


a “4 jal )-( SS \ | (9.177) 
ar ae )-( 5) e-s) 


MEA pt Be ok US A Se ROBE TAR AMG, KAMEA 
min f(a +i) = 5 (-8-0,)* + 5 (6+26,)" 
— (—8—61)(6+26,) —2(—3—8ı), (9.179) 
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win fp Os81) = 3-2-0)" + C+ 20)" 
~ (2-8) (6+28)—2(—2—8:), (9.180) 


其 最 优 解 分 别 为 从 = 一 1 和， 侣 一 一 4， 因此 
2 
1 0 = .1 
(em 
-五 
6. 
1 30, 35\/ -1 15 
Sle OSE eae = .182 
(0)+( 17 T) 2 tof ote) 
1 
今 7 一 2, 我 们 得 到 总 = 好 。 第 一 轮 过 代 到 此 续 束 ， 接着 进入 第 二 
轮 达 代 , 得 到 
ie ae am ee 
ne 14 P ii 11 (9.183) 
aA 4 Pl wo fle f 
~ il ti 11 
2 -6 .8 
11 $ 11 +( 1 1t (9.184) 
A EN ENEN a 
~ 41 14 411 
两 个 同时 极 小 化 是 
ae 8/8 , 6 ,\,1/6 ,10,\3 
min f(pi-tOed = Artar) +3 (Get ar) 
8 6 6 , 10 8 6 
— Gta) (gar) ar tar) 
(9.185) 
| E EE a E 
min f (ph O01) Saat ii és) +3 it’ a1 62) 
8 6 ‘17 , 10 8 6 
(Far apt ar) a ar) 
(9.186) 
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PAEA- m=i 达到 极 小 值 , 因此 


8 ' € 
Ti 11 1 
1 
fm i E 9.187 
i 6 +(z) 10 a) € ) 
Ii ti 


我 们 看 到 , 经 过 m=2 WAR, f 的 整体 最 优点 确实 已 达到 ， 读者 
可 以 验证 ,方向 寻 和 有 委 关于 (9.175) 的 矩阵 驴 是 共 印 的 .、 了 

这 个 算法 的 二 次 终结 性 质 的 证 明 留 给 读者 ; AT RMR 
的 收敛 性 的 证 明 可 以 在 [3] 中 找到 ， 
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9. 有 最 早 的 二 变 景 无 约束 最 优化 方法 或 洗 是 所 渭 的 交替 方向 法 (或 称 轴 
向 松弛 法 )， 在 这 种 方法 中 。 一 个 实 函 数 E) (ze RY) 的 极 小 值 点 通 
过 从 任意 点 出 发 依次 沿 着 坐标 轴 方 向 搜索 而 找到 ， 画 出 这 个 方法 的 
框图 , 它 采 用 了 上 一 章 的 某 个 一 : 维 搜索 方法 。 对 下 列 函 数 试验 这 个 算 


法 : 
(i) fa (ax) = (a1 ~ 3)2 + 2 (a —2)?, p (9.188) 
M a= (0, OHE, 2 
(ii) fala) = (21) + 106 (a)? +10x1%2, (9.189) 
从 好 一 (4 DER, 
RM a FB, 使 得 变换 

wi=ti taza 202 一 月 2 (9.190) 
对 于 fs 得 出 

fa(w) = (w1)?+ Cw)’. (9.191) 


讨论 这 种 变换 对 于 交替 方向 法 的 效率 所 起 的 作用 ， 
9.B. 使 用 单纯 形 方 法 极 小 化 下 殉 函 数 : 


Ci} fD = m3) + a2) + atad, (9.102) 
从 下 列 点 开始 : 

x= (0, 8), @= (0, 9), v=(1, 9), (9.193) 
Hasi, B=}, y= 二 2， 男 出 这 个 二 次 通 数 的 等 值 线 ， 并 且 画 出 这 个 
算法 的 进程 . 
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B.C. 


9.D. 


9.E. 


9.F. 


76 


(ii) fala) =(—6— zy 2)? + (2—3 --343—-a122)?, (9.194) 
IKE AA APRA: 

P=(—4, 6), r= (4, D), z?=(-3, 6), (9.195) 
ATAR CEE c* = (0, 0 有 一 个 极 小 值 点 ; 是 电子 工程 最 优化 问题 
由 出 现 的 目标 疯 数 的 ~ 种 形式 . 

对 这 两 个 函数 应 用 交规 方向 法 , 并 比较 两 种 搜索 方法 对 于 这 些 试验 函 
数 的 效率 . 
画 出 模式 搜索 法 的 框图 , 并 在 一 个 计算 机 上 把 它 编 成 程序 .对 前 面 练 
林 中 的 函数 试验 你 的 程序 ， 急 如 你 还 没有 接触 到 一 个 计算 机 , 就 将 模 
式 搜 索 法 应 用 于 极 小 化 下 列 晒 数 的 问题 : 

fT) = (1)? + (4a)? — Bay — tga +3, (9.196) 
Meb= (0, 0) 出 发 搜索 , FRR =1, ds 一 1。 完 成 勘探 与 模式 阶段 . 
夯 出 这 个 痛 数 的 等 值 线 ， 并 说 明 这 个 算法 的 行程 ， 把 你 的 结果 与 例 
3.3. 工 比较 . 
假定 在 旋转 方向 法 的 第 个 勘探 阶段 的 未 了 , 有 着 2C(>0) 个 方向 , 其 
中 为 0， 说 明 为 什么 在 这 个 场合 找 新 方向 的 Gram-Schmidt 正 交 化 方 
法 将 会 失效 。 Erca O, 得 到 一 组 新 方向 的 一 种 可 能 的 方 
HR: BHU PSR Op) PAAR H a, 并 如 加 .17? 那 样 定义 .对 
F jsi, e, n~p 进行 Rosenbrock 所 建议 的 正 交 化 并 得 到 新 的 
j=1, en nop, EXR RRI 3 与 刚 完成 的 勘探 阶段 中 的 相同 。 试 涪 
明 这 栏 得 到 的 ”个 方向 向 量 是 祖 互 正 交 的 . 
把 旋转 方向 法 应 用 于 极 小 化 柜上 的 一 个 函数 ， 假 定 其 第 阶段 的 最 
后 步骤 的 结果 如 下 炭 所 列 ， 


经 过 的 点 me 数 值 
GQ, 8) | 25.0 
(2, 9 26.0 
(0, 9) 22.5 
(-0.5, 8.5) 21.0 
(-3.5, 11:5) 84.8 
(-2, 7) 23.6 


Hd OB Oy LI RIBR TI G, Pi 
HA PED EF KG. 192) (9.196), 3B) M2h= CO, 8) RCO, 


9.0. 


9§.H. 


9.1. 


9.3. 


9.L. 


9.M. 


D.N. 


算法 的 行程 并 与 单纯 形 法 及 模式 搜索 法 出 较 ， 

以 Davies-Swann-Campay(DSC) 方法 代替 Rosenbrock 旋转 方 应 法 重 
做 练习 OP, 

证 明 公式 (9.45) 及 (9.46) 产 生 线 性 独立 的 相互 共 斩 的 方向 ， 并 证 明 ， 
ziri, oe, ot RIERA, BPM M IEEE ARH, MEME 
线性 独立 的 . 

26 F PRE, RHEA ATHAIN H: 


1 3 2 -2 0 
@ G=[5 4 | (b) | -2 3 -1{1 (9.197) 
0 一 工 6 


假定 2, A 与 加, 43 是 关于 一 个 3x 3 ELM G OMIA, EB 
at, 8 HET G HER 
BÈR 上 一 个 具有 正定 阵 8 的 二 次 函数 六 BE =O ~ = = 0, 
这 里 的 最 优 步 长 6 通过 下 式 定义 : 

FAA —min HA), j=l, 多 (9.198) 


Hp sA REZA., WR a 是 了 的 极 小 值 点 ， 对 于 什么 类 型 的 函 
数 ,可 以 推广 这 个 结果 ? 


， 证 明 ，, 例 9.5.1 中 的 方向 省 与 KF O. 68) Kae F RE 


Me Q Fest pu. 
写 出 不 用 导数 极 小 化 实 函 数 的 计算 机 程序 , 以 实现 9.5 节 的 Powel 
法 ， 它 用 带 有 外 推 ( 丰 用 划 界 方法 ?的 二 次 逼近 线性 搜索 ,在 开始 时 采 
用 平行 于 坐标 轴 的 搜索 方 应. 当 两 个 相继 的 选 代 能 终点 之 差 小 于 某 
个 容许 范围 时 , 收敛 准则 就 满足 了 .为 了 检验 这 个 程序 , 对 下 列 问题 : 

min f(x) = 10(x1)? + Cro)? — 6021 ~ 829+ 106, (9.199) 
从 不 同 点 出 发 用 上 述 方 法 求解 . 在 所 有 场合 , 同一 个 最 优 解 经 过 6 个 
线性 搜索 后 由 计算 机 打印 了 出 来 ， 另 一 方面 , 当 问 题 

min fala) = 3(a)74+ (ae)? — Zrt — 4a, (9.200) 
用 同样 方法 求解 时 , 最 优 解 要 9 个 线性 搜索 后 机 打印 出 来 . 试 解 释 为 
了 得 到 这 两 个 问题 各 自 的 最 优 解 所 需 线性 搜索 数目 的 这 个 差别 。 假 
定 计 算 机 绝对 精确 ,估计 为 解 这 些 问 题 所 需 计 算 函 数值 的 总 数 ， 
把 例 9.6.1 继续 进行 两 个 阶段 ， 计算 在 每 个 阶段 中 用 .95) 规 范 化 
的 搜索 方向 的 行列 式 , FHHIERKEDARE Kwa. 
把 Zangwill 算法 用 来 极 小 化 例 9.6.1 的 二 次 函数 ,计算 三 个 阶段 . 
?1 


9.0. 


9.P. 


12. 


13. 


GEIM! Dp 3x3 E, 选 一 个 3x3 IER P BRP p= 
个 方向 ， 用 矩阵 如 与 己 得 到 一 组 新 的 方向 ， 它 们 至 少 象 原 来 的 方向 
一 样 近 于 相互 共 斩 ( 在 定理 9.8 的 意义 下 )， 有 从 -组 三 个 关于 CC 桐 互 
共 施 的 方向 出 发 重复 这 个 计算 . 

Taw Chazan-Miranker 方法 的 框图 . 闵 用 这 算法 于 二 次 函数 (8.188)， 
从 原点 出 发 ,并 点 出 它 的 行程 . 
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= 10% 
二 阶 导 数 法 、 最 速 下 降 法 
An FE AG A PE 


在 关于 利用 导数 的 无 约束 极 小 化 方法 的 以 下 两 章 中 ， 先 从 两 
个 经 典 算 法 一 一 Newton 法 和 Cauchy 最 速 下 降 法 开始 讨论 ， 
Newton 法 是 8.1 节 所 述 算法 对 多 维 的 拓 广 ， 对 于 多 变量 的 一 般 
非 线性 函数 的 极 小 化 , 这 两 个 方法 都 不 够 满意 ， 比 如 ，Newton 法 
可 以 不 收敛 于 所 寻求 的 极 小 值 点 , 而 最 速 下 降 法 的 收敛 速率 很 慢 . 
然而 , 为 了 理解 从 它们 经 过 各 种 修改 而 得 到 的 .在 实践 中 认为 非常 
成 功 的 那些 方法 , 它们 是 重要 的 . 在 介绍 了 综合 上 面 两 个 经 典 算 
法 的 Goldstein-Priee 方法 之 后 , BFE ER. 

最 初 由 解 线 性 方程 组 而 发 展 起 来 的 共 辆 梯度 法 的 根本 原理 
是 ， 大 多 数 非 线性 函数 在 其 极 小 值 点 的 邻 域 中 能 用 一 个 二 次 通 数 
来 相当 好 地 近似 ， 这 样 ,任何 有 效 的 极 小 化 迁 代 方法 对 二 次 函数 
的 极 小 化 应 是 特别 有 效 . 这里, RM PST HRS, HAE 
导出 共 统 袖 度 法 .本 章 以 这 方法 的 收敛 性 的 讨论 来 结束 、 共 谣 实 
度 法 的 一 个 有 趣 而 不 那么 好 理解 的 特性 是 它 揭 示 了 更 为 复杂 和 精 
致 的 变 尺度 法 的 许多 重要 性 质 ， 变 尺度 法 被 认为 是 最 好 的 元 约束 
极 小 化 算法 , 将 在 下 一 章 中 讨论 . 


10.1 Newton 型 法 和 最 速 下 降 法 


BAKERA S ER 上 连续 可 微 ， 从 第 2 章 知 道 , 子 在 某 点 

o CR 达到 极 小 的 一 个 必要 (有 时 是 充分 的 ) 条 件 是 
Vf (a) =0, (10.1) 
如 果 我 们 有 关于 这 个 函数 的 足够 信息 ， 知 道 (10.1) 的 解 是 一 个 极 
小 值 点 ， 那 就 可 以 去 解 上 面 那个 具有 "个 变量 由 w 个 一 般 是 非 线 
性 方程 组 成 的 方程 组 . 恰 与 第 8 章 中 讨论 的 %= 工 的 情形 相同 , 这 


?4 


里 求 (10.1) 的 解 的 经 典 方法 也 是 解 方 程 组 的 Newton 法 .为 了 应 
Hj Newton 法 ， 必 须 假定 至少 二 次 连续 可 微 ， 即 除 梯 度 向 量 
Vfw) 之 外， 还 需要 在 每 一 点 wE R" Ab n by Hesse 阵 VYF). 
将 VF 的 每 一 个 分 量 在 点 o 附近 展开 (线性 化 ),， 并 令 这 个 线性 函 
数 为 Ķ. 


ACH be a a 


EA i=1 On, Ou; 
或 用 向 量 记 续 表示 为 | 
VA VES (ot) (zc 一 oo 一 0 (10.3) 


RE VF FEAR SEAS, 则 能 解 上 述 关 于 xz 的 线性 方程 组 ， 设 

gitl 是 解 , 我们 得 到 

atti k — [VIF (w) ] VE a). (10.4) 
Newton 法 就 是 用 (10.4 进 行 迭代. BARKER, fe 的 梯 
EA Hesse 逆 阵 必须 算出 。 实际 上 ， 我 们 不 直接 去 求 Hesse w pk 
而 是 去 解 线性 方程 组 (10.2)， 在 适当 的 假定 下 , 类 似 于 对 一 维 情 
形 已 介绍 过 的 那样 ，Newton 法 收敛 于 (10. 了 的 一 个 解 。 有 关上 收 
SUERTE Mit it, 读者 可 参考 Goldstein", Ortega, Rheinboldt™ 
或 Ostrowski?” , 

当 有 大 批 变量 时 ， 即 使 对 一 个 处 处 存在 正定 Hesse 阵 的 性 质 
很 好 的 函数 ,计算 函数 值 和 导数 值 , 特别 是 求 逆 阵 的 过 程 都 是 耗 时 
很 多 且 规 模 浩大 的 工作 . 如果 Hesse 阵 近 于 奇异 ， 局 面 则 更 坏 ， 
将 Newton 法 用 于 一 般 函 数 时 ， 经 常 出 现 的 另 一 个 困难 是 ， 由 
(10.4) 733) Ry et 不 能 保证 函数 值 在 每 次 送 代 中 都 减少 ， 换 言 
之 ,可 能 有 了 (oz > fo), 且 由 (10.4) 进 行 渤 代 而 生成 的 点 列 可 
能 收 僵 于 了 的 鞍点 或 极 大 值 点 ， 

有 另 一 种 考察 Newton 法 的 途径 . 假设 在 “附近 把 展开 
成 Taylor 级 数 , 以 作 旱 它 在 某 点 名 的 二 阶 近似 ， 


FE) fo) + oa) V0) + 0-a) VS a) (0a), 
(10.5) 
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俏 若 vsf Co) IE, dy (10.4) 给 出 的 点 ott 是 这 个 二 阶 近 似 的 
极 小 值 点 .用 Newton 法 时 大 多 数 困难 发 生 在 下 述 情 形 P: VY 
TE s 非 正 定 ， 或 者 由 (10.4) 得 到 的 点 ott ANS oe” 以 致 于 了 在 
a” 附近 的 二 阶 近似 在 t 处 元 效 . 部 分 的 补救 办 法 已 提出 ， 比 
如 , 可 用 oat ol di Newton 公式 
atep Vf (a*)] VF (at) (10.6) 

KREO. 4), 其 中 8 选择 得 使 f(z*1) < fie), 而且 在 这 算法 的 
茶 些 形式 中 ,8 选择 得 使 了 (2) 沿 这 个 Newton 方向 取 极 小 , 这 一 步 
可 用 第 8 章 中 的 线性 搜索 来 进行 . 

关于 对 一 般 函 数 求 极 小 的 Newton 法 ， 一 个 有 趣 的 改进 已 由 
Goldfeld, Quandt, Trotter" 提出 ， 他 们 算法 的 基础 是 , 在 第 
次 迭代 中 , 对 由 (10.5) 给 出 的 了 的 二 阶 近 似 在 以 为 中 心 的 闭 球 
ERED. 球 的 大 小 由 这 个 算法 来 调整 ,， 并 以 了 的 二 阶 近 似 在 球 
中 保持 相当 好 为 条 件 , 取得 尽 可 能 的 天， 这 个 算法 后 来 改进 为 以 
一 椭 球 代替 球形 区 域 而 在 其 上 对 二 阶 近 似 求 极 小 ， 这 个 桶 球 的 形 
状 和 方位 在 每 次 迭代 中 修改 . 

基于 少量 小 型 的 试验 问题 , 几 位 作者 报告 说 , 他 们 的 算法 很 有 
生命 力 ， 总 的 执行 情况 可 与 不 用 导数 的 Powell 法 (第 98 章 ) 相 比 . 
然而 看 来 , 如 同 原 先前 Newton 法 一 样 , 这 些 算法 的 效率 也 随 着 变 
量 数目 的 增 恕 而 迅速 减 小 ， 其 主要 原因 是 在 每 次 和 迭代 中 需要 求 
Hesse 0H, 或 者 等 价 地 , 需要 去 解 一 个 线性 方程 组 . 

有 一 种 情形 ，Newton 法 变 得 极为 简单 且 在 一 次 迭代 中 收 合 . 
这 种 情形 出 现在 是 由 下 式 给 出 的 二 次 函数 时 : 


f(a) =at Batt aQ, (10.7) 


Ah HEERE. TER, V*f(@)=@, Bp Hesse RE — Pie Bei 
Pe. Bo eR ER — a, E S MEL, WA 

Uf (2°) = b+ Qe, (10.8) 

0=p+e@c (10.9) 


综合 这 两 个 方程 , 就 得 到 
76 


a = g? —Q INF (a), (10.10) 
比较 (10.10) 与 (10. 作 可见 , MAE? 出 发 , 用 Newton 法 只 要 
进行 一 步 就 达到 这 二 次 函数 的 极 小 值 点 . 
例 10.2.1 
再 考察 例 9.5.2 中 用 过 的 二 次 函数 f(z) = (er — aot 25)? + 
《一 十 ws 十 wa)? 十 《my 十 wo 一 wea)?。 用 简单 的 代数 处 理 可 将 它 变形 
为 


fle) = = s «ER, (10.11) 
其 中 ,Q RAH? APRA, 
过 
6 -2 一 2 4 8 8 
pee [de a. a 
| —2 6 —2 | Qe ae (10.12) 
-2 -2 6 1 11 
cR Oa oe 
设 e(t, 1 1) 
1 
6 -2 -2 |3 \ [° 
Vf(@) —Qe"=| -2 6 —2 i 1 |-[4], (0-13) 
2 -2 6 E 0 
且 由 (10. 10) 得 到 精确 的 极 小 值 点 
i LT? 
z i hy [P 
a cl aes ae a 
wl 1 Sag i (10.14) 
1 ta t 
adla a aA 
J 


Newton 法 利用 近代 格式 去 求 这 样 一 点 , 在 这 一 点 上 求 极 小 的 
也 数 的 梯度 向 量 为 零 ， 与 梯度 向 量 有 关 的 一 个 应 用 涉及 到 寻找 请 
?7 


数值 减 小 的 方向 ， 在 第 4 章 中 , 我 们 曾 定义 可 微 函 数 , 的 方向 导 
数 为 


Df (2°; y) =y™ Vf (a) = =lim i a ia -f Ds (10.15) 


现在 考察 所 有 这 样 的 向量 (方向 ) VER 使 得 对 给 定 的 点 EP 
有 


VF) <0, (10.16) 
于 是 由 (10.15) 可 得 , 对 充分 小 的 正 数 1 有 
F(a? + ty) <f (2°), (10.17) 


Rat, MRRNRRSER 上 的 极 小 值 点 而 在 某 一 点 OCR 
ELF WRERAS, WA, 沿 着 满足 (10.16) 的 9 方向 作 一 个 充分 
小 的 移动 将 导致 函数 值 减 小 .方向 导数 DP (a, y), 实际 上 可 以 度 
E SREE o 没 4 方 向 的 瞬时 增加 《如 果 DF; y) > 0) 或 瞬时 
减 小 (如 果 DFs; y) 二 0)， 因 此， 可 在 具有 某 有 界 上 长度 的 所 有 方 
H y H, 比如 在 iy| 志 1 的 所 有 方向 中 , 找 -- 个 特殊 方向 , 使 得 沿 此 
方向 ， 在 符合 VE Co?) #0 的 给 定点 wr, 了 的 值 能 最 速 下 降 ， 于 是 ， 
有 下 述 非 线性 规划 问题 : 


ming Vf (a°) = -$ OEE ly (10.18) 
受 限制 于 
lyi = {ao Pt, (10.19) 
要 求 读 者 证 明 , 这 问题 的 最 优 解 是 
Yo0) 
Y= “Te ay 


这 样 , 函数 值 最 速 下 降 的 方向 是 负 梯度 方向 ， 首 先 由 Cauchy) $ 
出 的 最 速 下 降 法 可 描述 如 下 ; BE oS RY, 对 4 一 0, 1,…, 计 
算 点 列 

. at= gk_ OV f(x"), (10.21) 
其 中 傣 >0, HWE 

f (at OVS (w*)) = min f(a"¥—AVF(e)), (10.22) 
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fe Cauchy 最 如 下 降 法 中 ， 要 求 得 了 沿 负 梯度 方向 的 整体 极 oD f 
点 ，Curry 对 此 方法 作 了 修改 , 他 选择 全 是 了 沼 方向 — VECO) 
的 第 一 个 逗留 点 , 即 O 取 最 小 的 正 值 时 得 到 的 那个 逗留 点 . 
由 (10.20) 给 出 的 最 速 下 降 的 方向 向 量 ， 在 改变 (10.19) 的 模 
约束 时 不 是 不 变 的 ， 例 如 , BARR nnclid 模 条 件 而 要 求 
y Ayxl, (10.23) 
其 中 4 为 一 正定 对 称 阵 ， 我 们 极 小 化 grwf(eo) 使 它 受 限制 于 
(10.28)， 仍 请 读者 证 明 , 这 种 情形 的 最 优 解 y 由 下 式 给 出 ; 
— A-1 Ò ; 
ER AO er 
如 果 在 每 次 迭代 中 令 AVF), 倘若 Hosso 阵 为 正定 ， 我 们 得 
到 在 利用 非 Buelid 模 的 最 速 下 降 法 与 本 节 开始 时 叙述 的 Newton 
法 之 间 有 趣 的 相似 ， 然 而 , 我 们 在 下 面 仅 涉 及 利用 Euclid 模 的 最 
速 下 降 法 ，Greenstadtan 研究 了 梯度 方法 应 用 于 二 次 函数 极 小 化 
时 ,不 同 的 矩阵 4 对 于 相对 效率 (将 在 下 面 定义 ) 的 影响 ， 由 这 一 
研究 , 也 可 试 着 去 得 出 有 关 非 二 次 函数 的 结论 . 
假设 根据 (10.24) 选 一 个 由 2? 出 发 的 搜索 方向 y4， 沿 此 方向 
极 小 化 一 个 二 次 函数 .其 最 优 值 点 记 为 24， 则 有 
L(y rw) 
fa") -fo) = 2 
(WF (a) "AVF (a?) 1? 
RICO mic A N 
(10.25) 
4 AVF, KERT RNAS Nowton 法 的 方向 ， 记 为 y. 
YE Newton 方向 上 进行 极 小 化 , 得 到 一 点 几 , 并 且 


F(a?) 一 Fa = (VEESI JEVE), (10.26) 
定义 相对 效率 7 为 


F(a) 一 Fa 
EOR nee 

se Ue My 
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M = A-120?f (EATE t, (10.28) 
其 中 4- 是 4 的 对 称 正定 “平方 根 一 一 吧 APA P= AM, 
可 得 
4u 2 
Cte <ni, (10.29) 


其 中 人 是 型 的 最 大 特征 值 与 最 小 特征 值 之 比 ， 也 称 它 为 M 的 条 
件数 .以 1 为 上 界 表达 了 一 个 前 已 建立 的 事实 ME Ro 
出 发 ,用 Newton 法 只 要 单独 一 步 , 便 可 达到 具有 正定 Hesse 阵 的 
二 次 函数 的 极 小 值 点 . 

尖 应 用 于 有 狭长 深谷 的 函数 时 , 不 等 式 (10.29) 也 能 约略 地 
启示 出 最 速 下 降 法 (4= 了 的 不 好 的 执行 情况 ， 对 这 样 的 函数 ,对 
的 条 件数 将 是 大 的 , 从 而 最 速 下 降 法 作出 的 进展 很 慢 。 这 种 现象 
称 为 花边 现象 ( 见 图 10.1). 


x 


10.1 由 最 速 下 降 法 产生 的 花边 现象 


让 我 们 看 看 关于 最 速 下 降 法 的 收 全 性 育 些 什 么 可 说 的 .请 
读者 回想 一 下 , TER 称 为 序列 ICR WH -P+REA, MR 
对 每 一 个 正 数 8， 存在 一 个 自然 数 (s)， 使 得 对 =KK(s) 有 
ENT), 其 中 

N.) ={g: e-i <e}, (10.30) 
现在 可 以 叙述 并 证 明 下 面 的 定理 ， 
” 详 注 : 原文 此 处 为 对 一 切 ee Ke) e ENA), ASR AOR, 
$0 


定理 10.10" 

Be f R EWP Se a. BE CR’, f(@) =a. 概 

定 水 平 集 

Sf, a) ={e:2€ R", fle) <a} (10.81) 
GRAS CESS, 四 的 西 包 上 连续 可 微 . 令 {o 革 是 由 最 速 下 降 法 
产生 的 点 列 , 则 fo 对 的 每 一 个 凝 训 点 下 满足 VF (Z) =0， 

【证 明 】 AA SCS, OAR, h Bolzano-Weierstrass GR 
可 知 {x*} BRE THER. 令 和 分 是 这 样 一 个 凝聚 点 ， 并 设 
VAE) £0, FE, 存在 一 个 多 >0, 使 (人 2 一 6Vf(32)) 达 到 极 小 ; HM 
存在 一 个 3>0, 使 得 (2) =f (—O'VF(Z)) +8, 因此 4 一 0*Vf(56) 
ESS, 四 的 一 个 内 点 . 

对 任意 w*, 由 中 值 定理 可 写 出 

下 (mr 一 人 VC)) =f (GOVE (2)) 

+ (VF (E*))* [a E+ VF (&) —VF(e"))], (10. 32) 
其 中 E = ÂNE) + A(t — &) ÂV (a*)—VF(B))], aE 
(0, 1) 中 的 某 个 值 ， 由 Bolzano-Weiorstrass 定理 也 能 推 得 ， 在 
TE {00} 的 一 个 子 序 列 {oh} MES. B VEE 收敛 于 
Vf(E-OVF(2)), H {(a'—&) —6°( VF (ah) ~VF(E))} ie h F 
零 . 对 充分 大 的 km 向 量 ERTS, akini, B 

(ae 一 人 wy(or)) <f 4-OVF(E)) + F=F@)-F. 
(10.38) 
令 Oin J fo — A VE) BUM. Boy {f(z”“)} 单调 下 
降 且 收效 于 f(z), 得 
fH) <f (vm ~ evf (a) <f (IVE Ca) 

<f@-4, (10.84) 

与 假设 矛盾， 因此 , 必须 Vf —0, J 


这 个 定理 能 够 推广 ， 只 需 用 下 列 公 式 代替 在 最 速 下 降 法 中 的 
(10.21), 
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ah+3 — o* PB) Vf (a2*), (10.35) 
其 中 B(z) 是 一 个 nxn 的 正定 阵 ， 其 元 素 为 2 WEAR, 0,>0 
是 一 个 数 , 它 由 上 面 提 到 过 的 Curry 规则 确定 。 这样 ,一些 利 用 非 
Euclid AR RETE 方法 在 定理 10.1 的 假设 条 件 下 也 收敛. 
前 已 指出 ， 有 关 最 速 下 降 法 的 计算 经 验 通常 使 人 失望 ， 除 了 郑 数 
具有 近乎 球形 等 值 面 的 情形 之 外 ， 都 收敛 得 慢 . 由 Akaike”, 
Forsythe, Kantorovich-Akilov™ 所 作 的 理论 研究 表明 ， 最 速 
下 降 法 的 收敛 速率 对 二 次 冰 数 是 线性 的 , 并 且 一 般 说 来 ,对 非 二 次 
函数 不 可 能 指望 有 更 高 的 速率 . 
更 特殊 地 , 可 不 失 一 般 性 地 假定 二 次 通 数 7 H fle)- Qa, 


其 中 马 是 一 个 2xw 正 定 对 称 阵 , 其 最 小 和 最 大 的 特征 值 分 别 为 入 
和 为 、 这 个 函数 的 整体 极 小 值 点 当然 在 原 点。，Forsythe"” 证 明 
了 ,从 任意 点 吧 E 吾 开始 ,对 于 以 最 速 下 降 法 生成 的 点 ,存在 依赖 
T o 的 常数 6c 和 co, 满足 


0<a< Le Ca ( As 


My = a 
eae) Sa ee 


(10. 36) 
SBF HEAK E RT ERR TI LORS A i EO ME H E A TE 
的 解释 . BAER k KERBELA, Vf RRAK 
FON FO) RF Oy YBN IPS amaf), h 
单 的 微分 可 证 明 (VE FIVE (or) 二 0， 即 相继 的 搜索 方向 互相 
BE. ER h, 这 意味 着 我 们 仅仅 洪 着 平行 于 开始 的 页 个 方向 进 
行 搜索 ， 在 高 于 二 纹 的 情形 , 这 算法 实际 上 也 相似 ,其 定 索 方向 浙 
pees ene 
我 们 叙述 Goldstein 和 Price™® 的 一 个 极 小 化 算法 来 结束 这 
一 节 。 这 算法 可 看 作 是 把 Newton 法 和 最 速 下 降 法 结合 起 来 并 消 
除了 这 两 者 的 某 些 不 希望 有 的 特性 而 得 到 的 一 个 方法 ， 在 下 面 的 


讨论 中 ,3 Mr EEX, d<i wz? 是 PERK, nxn A 


iF LF oH. 了 是 至 少 定义 在 〈10,31) 给 出 的 水 平 集 上 的 实 
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值 函数 ， 求 了 极 小 的 Goldstein-Price HRA A KBR PA 
的 计算 组 成 ， 计算 矩阵 G), 它 的 第 4 列 由 下 式 给 出 ; 
(at) = TE Bet) NE) NGO) Gat cay, 0.87 


其 中 ,Bo 一 ” 而 
Be=r pl k=l, 2, +, (10.38) 
RE, plii A TAREA H: 
pa) = Vf Ca) (10.39) 
用 于 8&-=0 时 ,或 者 Q(e") 是 奇异 时 ,或 者 下 式 成 立时 ， 
(VF Qa") Yo <0, (10.40) 
否则 , + 
f(a) = RCTS a). (10.41) 
定义 
g(a", 8) fee (10.42) 
mP gle", 1) <8, 令 7 WE 
ò< gla¥, Or) <1 — ò; (10.43) 
否则 令 i=l Fop ao H FARAH: 
gkt1 ok — plat), (10.44) 


HRI VS (ot) <e, MERE IL. Le 是 预定 的 小 的 正 数 . 

在 用 数字 例子 来 说 明 这 个 算法 之 前 , PEL RE i A. E 
PE QC Jk f E 2" fy Hesso BE VY2flos) 的 一 个 近似 ， 这 一 近似 的 
得 到 仅 用 到 梯度 , 而 不 需 计算 二 阶 导数 ， 在 这 算法 中 的 搜索 方向 ， 
或 者 是 最 速 下 降 方 向 一 Vf(w*)， 或 者 是 基 一 个 近似 的 Newton 方 
向 一 [Q(z*)] -Vf(e*)， 最 速 下 隆 方 向 用 于 以 下 几 种 情形 : BE 
代 、 Q(z*) 是 奇异 的 因而 不 可 能 求 道 (实际 上 ,一旦 Q(z*) 接 近 奇 异 
H, 我 们 就 选择 最 速 下 降 方向 ), 或 者 近似 的 Newton 方向 不 能 引 
起 瞬时 的 函数 减 小 , 即 

— (VF Cay)? IQ) AVE (at) =O, (10.45) 

如 果 取 G= t (CA Newton 4”) mi HB gC, <8, m 
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7 一 92))>Fc9 时 就 是 这 种 情形 ， 则 选择 一 个 较 小 的 步 长 使 
得 g(w*，94) 为 正 且 有 异 于 0 的 下 界 ， 考察 一 个 具有 正定 Hoss p 
的 二 次 隐 数 了 ,就 能 很 好 地 理解 (10.48) 中 的 上 界 和 下 界 .， 在 此 请 
EF, OCORA HAERE, ES RA Hesse PE. 在 负 梯 度 方 回 
上 第 一 次 移动 之 后 , 下 一 个 方向 将 根据 Newton 法 确定 ， 即 eCe) 
Hy(10.41) A. FE a SHG g(a", ORF Taylor 级 数 ， 经 过 
一 些 简 单 的 代数 处 理 就 得 到 


je Delne, (10.46) 
而 0=1 的 完全 Newton 步 也 满足 (10.43). 
5j 10.1.2 
考察 用 Goldstein-Price Ryk HJE ZIR mK 
fla) =.) + Ea) age (10.47) 


这 个 函数 在 例 9.5.1 中 曾 用 Powell 方法 求 过 极 小 、 令 r= 5, 
5 一 去, 并 假设 从 2 = (2, 多 出 发 . 了 的 梯度 由 下 式 给 出 ， 


Vf(w) = ( pay ) (10.48) 
而 
| | (10.49) 
矩阵 RKF Fh th . 
Q= 1), ef 1) aoao 


注意 , 因 f UK, ERE THE S R Hesse 阵 ， 第 一 个 搜索 
方向 由 p) = Vi (a?) a, BLAH HE g, 1), 
gie, 1)= FCL- fm — VF) 


CVF) PV F(a") (10.51) 
26—152 126 .1 
180 10 ~8°* (10.52) 


S4 


找 一 个 如 使 其 满足 (10.43)， 试 取 Oo 二 ,得 到 


oe -e-h E) 


; 10.53) 
~ Te EY CFC) EV F(a") 
26—11.06 14.94 
一 一 一 (10.54) 
便 成 立 
12.14.94 .7 
88 SS co) 
FEL at= (—0.8, 3.4), EER Q) = Qe") =Q, 算得 
Ei 
gij i? (10.56) 
1 3 | 
2 <2: 
下 一 个 搜索 方向 将 是 Newton 方向 
i i | 
i poss | 2 2 If 78) f 1.8 
se) avo) -| 1 a (aa )-( aa} 
2 7 
(10.57) 
g(a, 1)= pC CLT (10.58) 


(—7.8)(—1.8)+(4.2)(2.4) 2° 8 

因此 到 = (1, 1) A Vf?) 0, DeAR MER BAAR. 这 一 
算法 的 行程 以 图 10.2 来 说 明 . J 

FIX PATH, AAAA RKE AK. Goldstein 和 
Price® 对 广泛 的 一 类 rr 上 严格 是 函数 建立 了 以 超 线 性 速率 趋 
PRE. 他 们 所 做 的 有 限 的 数值 经 验 表 明 , 这 一 方 
BRR RSA PRP ARR KERALA 
利 . 然而 , 这 是 单 就 计算 函数 值 和 梯度 值 的 次 数 所 作 的 比较 , 没有 
考虑 在 每 次 迭代 中 为 了 求 Q(e9) 的 道 阵 所 需要 的 箱 外 计算 . 
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图 10.2 Goldstein-Price 算法 


可 以 证 明 ， 和 矩阵 Co”) 按 某 种 意义 趋 于 求 极 小 的 函数 的 真正 
Hesse 阵 Vif (e). AR, 可 以 试 着 去 导出 一 些 相 似 的 算法 . 在 
这 些 算 法 中 ， 有 一 矩阵 序列 在 极限 过 程 中 趋 于 Hesse i p 
[VF (o)]*, 而 不 必 在 每 次 迭代 中 求 逆 阵 . 这 种 方法 将 在 下 一 章 
中 详尽 邮 讨 论 . 

另 一 些 利 用 二 阶 导数 的 Newton 型 极 小 化 方法 在 Murray 的 
[23] +B A RAB. Ritter 提出 了 一 个 Newton 型 的 算法 ， 对 于 这 
个 算法 ， 在 与 Goldstein-Price 方法 相同 的 假设 条 性 下 能 够 证 明 超 
TEU OPE. Ritter 算法 的 收 化 性 (不 一 定 是 超 线 人 性 的 ) 在 定理 
10.1 的 更 为 一 般 的 条 件 下 也 已 建立 . 


10.2 HRB E 
求 包工 一 个 实 函 数 子 的 极 小 值 点 的 适 代 方法 可 以 描述 为 从 
初始 点 © 移动 到 新 点 ,再 到 她 , 等 等 , 作 一 系列 移动 , 后 继 的 点 
由 下 述 关系 式 给 出 ， 1 
ok = kt gg (10. 59) 
这 里 ex 是 当前 点 ,入 是 移动 的 方向 同 量 , 而 ax 是 步 长 ， 假设 方 
&6 


向 灾 已 给 定 ,并 选择 oy A fH SR). È 


E (ay) 一 Co Ha"), (10.60) 
TE, TEP RRMA of oh 
SED a)ryp a tos) = (TNFa) =0, (10.61) 
假定 了 是 前 面 给 出 的 一 个 二 次 函数 ， 


Fla) -atdot 2 Qe, (10.62) 


其 中 心 为 一 %x% 正 定 对 称 阵 ， 在 这 种 情形 下 , S 在 任意 两 点 的 梯 
度 有 如 下 关系 : 
Vi (a) = VF (a *) +Q(a*—a 4), (10.68) 
如 果 a =o" 14 ofc, jl (10.59), (10.61) A (10.63) BB) of AY 
显 式 表 示 
ot = ee (10.64) 
在 两 点 的 函数 值 之 间 有 下 列 关系 式 ， 
FE) =f (al?) + oe) V1) 
+4 (a aë IIQ (a —a*), (10.65) 
Hy (10.59) 3 (10.65), 得 到 
0 
ACRE AEE, 故 这 等 式 的 右边 对 40 是 非 负 的 , 而 当 eH 
垂直 于 Vile’ ONEEN. 在 后 一 种 情形 下 ， 因 为 了 (or 玉 > 
Sc), RAEN PRA. RR BR) VFO) 40, 所 以 
H (10.64) FE, FE )*VE (a 2) > 0, Wl acO ERE FRR 
讨论 中 ,我 们 知道 前 而 的 数量 积 为 负 , CAB a >), 
除了 下 降 的 极 小 化 方法 之 外 , 也 希望 育 一 种 迅速 收敛 的 算法 ， 
或 更 好 些 , 希望 有 一 种 算法 , 把 它 用 于 求 二 次 函数 极 小 时 只 需 有 限 
步 就 能 终结 ， 因 为 一 般 非 线性 函数 在 极 小 值 点 的 邻 域 中 能 用 一 个 
二 次 函数 相当 好 地 下 近 ， 所 以 在 一 般 荡 数 的 情形 下 ， 为 了 迅速 收 
a7 


B PSB Re. 由 上 一 章 的 结果 ， 特 别 是 定理 
9.1 可 知 ,车 对 上 一 1，…, n ERA TMERR, 则 所 得 
的 点 a” FS RRMA. SES TRE 如 下 方式 
选择 . 

假设 由 一 点 zwE R" 开始 , 选择 


gi —Vf (2°), (10.67) 
下 一 点 是 
w+ oa, (10.68) 
Hp of fy (10.64) eee. 求 出 YF(z!) 的 值 并 取 
gta: —VF (et) + Buz, (10.69) 


其 中 Bu 是 选 定 的 一 个 数 , Roy SKE OIE. Ait 
(z07Qz = (TRC VFC) + Baz), (10.70) 
从 而 
Ba- ES. (10.71) 
现在 从 ot 沿 着 方向 2 移动 到 新 的 点 e, AHAVA), 新 的 方 
HPE 8) 应 共 示 于 2 和 必要 做 到 这 一 点 ， 只 要 按 下 式 取 


2%, 


如 一 一 Vfl?) + Baz! HBa’, (10.72) 
其 中 Bor 和 Bos 选择 得 使 人 2) "Qe = (27)"Q2° = 0, — Beth, 有 


Po VF) +S! Bis, k=0, ,nl (10.78) 
= i 


使 用 这 一 公式 的 困难 在 于 系数 Bu 是 Q 的 函数 , 车 企图 将 (10.73) 
用 于 非 二 次 函数 , 就 必须 计算 Hesse 阵 , 这 是 一 个 讨厌 的 运算 B 
些 , 我 们 将 说 明 如 何 生成 这 些 方 向 而 不 明显 地 利用 R 下面 的 结 
果 在 以 后 是 有 用 的 . 

定理 10.2 

设 了 由 (10.62) 给 出 ， 并 设 m% 个 非 零 向 量 中 ---, 27, SCR’, 
man KF QAR. HR eo CR HR, st, 22 ;各 分 
别 移 动 到 ot, a, +, zw", 使 得 
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t 


VF C) =0, j=l, e, m, (10.74) 


则 
(TVF =0, j=l, e, m, (10.75) 
【证 明 】 H jsm, 结论 是 平凡 的 .从 (10.638) 有 
Vi (a") =Vi(@)+Q(a"—a), j=0, ++, ml, (10.76) 
a | 
aaah j=l, e, m, (10.77) 
其 中 a 的 选择 使 得 (10.74) 成 立 . 青 利用 (10.77), 递 扒 地 可 得 
gw" io S! aft, j=0, ++, ml, (10.78) 


4=f+1 


代入 (10.76) 后 有 
Vo) VD SI alt, j=0, =, m=i, (10.79) 
FV F(a") = PVF (@!) + $ ai (TAA, 
gat, =, m—1, (10.80) 
10.74), AW — OE, IEE, BOR. Bit 
(10.75) ar. l 
推论 10.3 
在 定理 10.2 H, Æ m=n, 则 
Vi (a") =0, (10.81) 
即 w" 是 了 的 无 约束 极 小 值 点 
DEH] 因 2 是 线性 无 关 的 ,由 (10. 富 ), f 在 ww" 的 梯度 必须 
Ae. J 
用 YY 来 记 了 在 相继 两 点 人 “和 %"? 的 梯度 之 差 , 即 
Y=VF (a) Vf), i=l, 2 (10.82) 
对 二 次 函数 了 , 由 (10.63) 可 得 
-Qe at), (10.83) 
点 of 和 方向 z 的 选择 使 得 (10.59) 和 (10.83) 成 立 . 这 样 ， 
(Co 《10.84) 
假定 选择 on 2, kan 使 之 关于 OME, 就 得 到 


i (T= 0, 4-1, wee, k, j=, mee k, iti, (10.85) 
我 们 利用 这 个 结果 去 求 系 数 Ba 的 男 一 种 表示 式 . 
(y) = (VF (at) —VF (a) TV ) + Bavf a] =9, 
(10.88) 
从 而 
Baw Vg) VA) VF PVF 
iC HFT CY) eT ICED 
(10.87) 
BEER h (10.61) Fi ( 10. 67) R (27) *Vf (a) = —(VF(@*) PV f(a") = 0, 
HBE Vf) #0, PLS gu 的 另 一 种 表示 式 
_ (VF (a4) PVF (a4) . 
Br VAT Y are 
点 2 Fe SE SE) 2" A 2? HET RD KD. A, ae 
10.2 有 


GVS (a?) = (2) VF (a?) = 0, (10.89) 

将 (10.67) 和 (10.69) 代 入 (10.89), 我 们 断定 
(Vf (2°))*Vf(a*) = 0, (10.90) 
CVF (a*) )? VF (a?) = 0, ~ (10.91) 


现在 我 们 可 找到 (10.72) 中 系数 ba 和 Bs 的 一 个 公式 ， 将 方程 
(y7)"2? = (7778 = 0 与 (10.89) 至 (10.91) 综 合 起 来 ,就 得 到 

VE (a?) VF Ca?) 
TER, Ba (和 下 面 定义 的 Bxx) 也 可 表示 成 几 种 形式 ， 恰 如 Bis 有 
(10.87) 和 (10.88) 这 些 等 价 的 表示 式 一 样 (对 二 次 函数 )。 后面， 
我 们 将 回 到 这 个 等 价 性 来 . 


用 类 似 的 方法 , 也 能 建立 
(VFV =, O<i<jan, (10.98) 
By=9, k#G, (10.94) 


Da (VF(a*Y) VF Co) ee 
By = Bre CO TT k=l, «+, n, (10.95) 


BER kAj 时 Bws 一 0, 在 即将 到 来 的 讨论 中 ， 我 们 就 可 去 掉 双 重 
90 


下 标 bk, ie 


Te kN \TOE( ak 
Be Uf (at) + SE est (10.96) 


WG HG FE TIFE 7 50 EA CA RAR MEE A dE aE h 
Ek, CAT Fletcher, Reeves”, 其 基础 是 Hestenes, Stiofel™ 
AK fit RETEA ATAR. SEP BER BY EAN 

HARRA oC RB", R VE (2°) RA, i R = — VF (2). 
依次 沿 着 方向 条, 27, 2 DE Fe) 而 移动 到 a, g’, oe, ao", 
其 中 天 出 人 10.96) 选 定 . SS RIA a” A — VECO) EY © FO 2%, 
重新 开始 这 一 过 程 。 当 下 式 满足 时 , 算法 结束 : 

(VFV O <e, (10.97) 
其 中 是 某 个 预先 确定 的 小 正 数 . 注意 , 车 由 (10.62) 给 定 ， 则 
Slit * RFQ MA RO, 共 罗 梯 度 法 具有 二 次 终结 性 质 . 

例 10.2.1 

用 Fletcher 和 ReeYes HR LH RLS R T — Kw HR 
小 化 问题 . : 


F(a (ai)? t Ee) —a— 2a, (10.98) 
将 了 写成 (10.62) 的 形式 , 便 有 
2 A 10.99 
(0) a] ah w 
假设 从 2? ~(—2, 4)" 开始 搜索 ,得 到 
一 2 12 \ 
wi) ‘ | 2 (10.100) 
KF a BME fatat), RBI PF 
94. )C12) \ /26 6 
: area aa 于 gala! 
q @@ sh we 
= ay 17 17 
(10.101) 
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现在 必须 找 第 二 个 搜索 方向 =, 由 (10.967 有 


„2 CVF (a4) UFC) a 
2 -VW (at) + Ee ans #, (10.1025 


从 而 
A 6\? /12\3 =) 
，| a (a7) +37) | 12 下 289 
Z 12 C= 210 上 
AT ~ 289 
(10.103) 
关于 a BME (oan), BBall BRA 
26 _ (17)(90) 
aal T OED) | (2), naa 
38 (17) (210) 1 


17 ~ (10) (289) 
象 所 断言 的 那样 , 它 是 了 的 整体 极 小 值 点 . 图 10.8 说 明了 这 个 算 
HEM RIT AER. 
BREA IH, (10.95) RRA 至 少 存 在 三 个 等 价 的 公式 


图 10.8 H: 4 fH EH 
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《 当 用 于 极 小 化 二 次 函数 时 ). 它们 是 


P= A a, (10.105) 
By -人 (10.106) 
TEE a eh AC a, (10.107) 


VF) TVR 

这 些 公式 在 下 述 意义 下 等 价 ， 当 用 于 极 小 化 一 个 带 有 正定 阵 
& 的 二 次 函数 ， 且 初始 方向 取 必 一 一 YC) 时 ， 它 们 产生 同样 的 
搜索 方向 。 公式 (10.105) 由 Daniel 提出， 公式 (10.106) 由 
Sorenson™ 和 Wolfes5 提出 ， 而 公式 (10.107) 用 于 Polak, Ri- 
bisaret bj Polyak™ Ay tk Ha Be RFE per | Hestenes, Stiefel 发 
现 , WF AIRE, (10.106) 710.95) HB, 

DRH =V (oo) 的 选取 看 来 是 十 分 重要 的 ， 例如 , 当 
我 们 选 :+ VF (OR, BAER AESOP, AFK 函数 ， 
Fletcher-Reeves 方法 仅 在 重新 开始 的 步 又 以 后 才 终结 ， 而 其 他 的 
形式 在 % 步 中 达到 极 小 值 点 我们 用 简单 的 二 次 函数 来 说 明 上 述 
Ba N ， 

例 10.2.2 

考 虚 下 列 函 数 的 极 小 化 : 


F(a) = Fw)? + Fy (10.108) 


Be a = (1, 1), 不 用 负 梯 度 方向 —Vf (e°) z 《 —i, —1)’, 我 们 取 
2 一 (一 0)?， 沿 2 极 小 化 , RINEN F— A s= (0,1), VE Ce") 
一 (0, 1)， 利 用 (10.95), 下 一 个 搜索 方向 为 


m -1 
a=-(1 +a ;)-( ? ) (10.109) 
必 一 (一 记忆 )， 不 重新 开始 的 话 , 我 们 将 在 一 条 趋 近 于 原点 的 


螺旋 形 轨 线 上 移动 ， 另 一 方面 ， 用 (10.106) 或 (10.107)， 因 为 
Cyt VF Ca") =O, RATHI 7 = (0, -1)", 习 方 向 上 的 极 小 值 在 点 
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a — (0, 0) 达 到 ,当然 VE (a) = 0, 所 以 算法 终结 ， 了 

LATT, ARAO .95) 不 能 在 两 步 中 求 得 精确 极 小 值 点 ， 
其 理由 是 , 仅 当 以 前 的 步骤 是 准确 的 并 且 特 别 取 闷 = 一 YfGo ) 时 ， 
这 公式 才能 保证 在 第 次 迭代 中 有 (2) "Qe 一 0， 而 先前 给 出 的 
其 他 公式 即使 全 关 一 YA(s?)， 也 能 保证 相继 的 两 个 搜索 方向 2 和 
oO RF @ 是 共 辊 的 ; 但 是 在 这 情形 下 , 对 ">>2, 一 般 不 能 得 到 
BAT NAD SESE, 因此 二 次 终结 可 能 不 出 现 . 由 此 可 推 
知 , 当 用 共 孝 梯度 法 来 求 二 次 函数 的 极 小 时 , 如 不 作 “ 标 准 的 "选取 
at = 一 Vf(w?) 和 不 作 周 期 性 的 重新 开始 , 将 使 其 效率 大 为 降低 . 后 
面 我 们 还 将 回 到 这 一 点 上 来 ， 


10.3 HBR SHAR 


ARIA, BORNMA, ERAT HH EE 
其 有 二 次 终结 性 质 ， BA ZEBRA UE BE BB BE a K 
RAF ERNE. FESR BER AR AK Se Be HE BE 
SMR PEAT Re, Pi Daniel", Elkin"”, McCormick, 
Ritter’ 221, Ortega. Rheinboldt*™, Polak*!, Polak, Ribiére™” 
和 Polyak”, 这 里 ， 我 们 证 明 不 作 重 新 开始 的 Polak-Ribiere- 
Polyak HMHR wA PRP Fe) Kea. PRP 算法 可 描 
述 如 下 : R ER AB, Hes HA 


(24) VF (2) <0, (10.110) 
if k=l, 2, e, 令 
ott Vf (a) +B, (10.111) 
其 中 By hH (10.107), H 
at = att -Haga (10.112) 


其 中 a BMG F(a"), BI ox 是 月 精确 的 线性 搜索 求 得 的 ， 
BEAT AY HE AA FE SF Danid" 和 MoCGormick、 Ritter”, 

我 们 从 证 明 PRP 算法 是 严格 下 降 算法 开始 . 

引 理 10.4 

设 f 是 "中 一 个 开 于 集 上 的 连续 可 微 实 函 数 ， 则 对 于 由 
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PRP 算法 产生 的 点 列 {2 站, 24 VECO) HOR EA 
F > f(ak't), &--0, 1, -, (10.113) 
[证明 ] 用 Vf) 乘 (10.1]1), 我 们 得 到 
(VF (ak) ) Pett = — (VF (ak) PVF (ak) <0, k=l, 2, e, 
(10.114) 
这 是 因为 由 a ATER, (VF Ca*)) 2k = 0, BLL, 对 充分 小 的 ais, 
KK (10.110) #10. 114) 11$ 
S(O) > F(a ae). (10.115) 
因为 okt oF bong, CR ain 极 小 化 f(s* 十 or:12*)， 所 以 不 
等 式 (10.113) 上 成 立 。 1 
下 一 个 定理 给 出 的 关于 PRP 方法 收敛 性 的 证 了 明 中 , 我 们 假定 
SRERF LRCCRH 上 的 二 次 连续 可 微 实 函 数 ，Hesse 阵 V7 
EEE CURES 是 严格 点 的 )。 还 假设 ， 对 每 个 只 EC， 
fio’) =a, 由 式 
S(f, oa 一 Te:0ECO f(a) <a} (10.116) 
定义 的 水 平 集 SCf, a) CO 是 紧 致 的 ， 水 平 集 的 紧 致 性 是 在 极 小 
化 算法 的 收敛 性 定理 中 广泛 使 用 的 一 个 假定 ， 因此, FRATE 
数 中 的 某 些 条 件 以 确保 其 水 平 集 为 紧 致 ,是 适宜 的 . 注意 , 对 于 连 
ARAR p, 所 有 水 平 集 是 闵 的 , 因此 这 些 集 为 紧 致 的 充 要 条 件 是 它 
NAR. 所 有 水 平 集 的 紧 致 性 可 由 下 面 定理 刻 划 . 
定理 10.5 
O 设 $ 是 无 界 集 TCR" 上 的 连续 实 函 数 , 风 对 于 任意 «CR, 非 
空 水 平 集 


So) 一 foE7 di) <a} (10.117) 

A FEE EE, 
lim {$(2*)} = +00 (10.118) 

WERE et eT AB 
lim {|a*}} = +00 (10.119) 


的 每 个 序列 记 少 都 成 立 。 
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t 证 明 】 假定 加 的 所 有 水 平 集 有 界 , 4 {0} 是 满足 (10.119) 
的 了 中 点 列 , 并 设 存在 实数 B, 使 得 对 无 穷 多 个 pae 
存在 {0} 的 子 序列 {a}, ER oh HAG) <8, IRR, 
{z™} 的 所 有 点 在 有 界 集 S($，B) 中 ， 这 与 (10.119) 矛 盾 ， 反 之 ， 
假设 (10.118) 与 (10.119) 成 立 , 而 对 某 â, Sb, AER, 则 存在 序 
Ba}, EEC, &) 且 满足 (10.119) 和 $lw*) <a, 3x49 (10.118) 
Fe. 1 

现在 假设 了 是 C 上 的 二 次 连续 可 微 函 数 , FEER u n, 
使 得 对 每 个 CCC Aye RR’, 我们 有 

ply sy vw y<nly|?, (10.120) 

或 者 等 价 地 ，V2f(o) 的 特征 值 介 于 天 和 9 之 间 。 这 些 不 等 式 也 了 明 
i Hu A, 对 每 个 EC，Hesse 阵 V2(w) 十 正定 的 ,所 以 了 在 C 
上 是 严格 凸 的 。 我 们 来 证 明 PRP 方法 的 搜索 方向 是 有 界 的 ， 

引 至 10.6 

假设 (10.120) 成 立 , H2, o*, ow 由 PRP 方法 确定 ,市 


IVF) leo), k=, 2, (10.121) 
【证 明 】 我 们 有 
(VF (a) T=0, kel, 2, +, (10.122) 
(Vf (at) Met VF, k=l, 2, +, (10.123) 
这 样 8, 能 写成 


ENT 
B= DIRE, (10.124) 
由 中 信和 定理 ,有 
VF (a) = Vf (at VE al) (10.125) 
= Vf (wr) VF EY age", (10.126) 
其 中 好 是 wr 和 ww*! 连 线 上 某 一 点 ， 因 此 得 到 
of = NAF ET) one’, (10.127) 


[ Ce) PVF Ca¥) = (aT EI) VF (@*) |, (10.128) 
fH Cauchy-Schwarz BER” A 
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(OFIS | Sal VF Ca") | | VF CEE De® | (10.129) 
<orl VPC") [pwr =e lz aT | (10.130) 
<at| Vf (a) || o | {sup | Vf (€*2)2*|} (10.181) 


sare VF (a) | AEF) | (10.132) 

ag VF (a*) | en, (10.133) 

其 中 (10.182) 和 (10.133) xt FR RE A |A 的 定义 中 与 
(10.120) 推 得 ， 如 第 1 章 中 注意 到 的 , 成立 


14|= sup | Aw! = sup «Aa, (10.184) 
类 伏地 , 可 以 证 明 | 
| Cy") 72" | Sane 2" 17, (10.135) 
于 是 就 有 
TA <ER, (10.136) 
[Aut |< Ir. (10.187) 


FA(10.111), (10.18) 和 三 角 不 等 式 包 ,我 们 得 到 
[ESA lB < |v ,10.188) 


现在 , 由 
[ett] t= — CVF (ak) LE — VA) + B®] 
| HEY LVF a) + Be"), (10.189) 
且 由 (10.122) 可 推 得 
[= {vw + CA)? | VF Ce") 7, (10.140) 
所 以 
Pertti > | VFCe*) |. (10.141) 
1 
我 们 现在 叙述 并 证 明 PRP FEM PRM eH. 
定理 10.7 
设 了 是 开 凸 集 CCB" 上 的 二 次 连续 可 微 实 薄 数 ， 且 满足 
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(10.120), $ LEC, f(a) a, HR SS, a) 是 紧 致 的 .。 则 PRP 
算法 是 产 格 下 活 方 法 , We Vo") #0 RY, A 


fw >for), k=, 1, >, (10.142) 
并 且 ,或 者 对 革 个 下 有 VA) =0; 或 者 有 
lim{ Vf (e")!} =0, (10.143) 
FEI OLE HBA a SCF, om， 在 这 点 处 Vf Ca") 一 0, 从 而 e Æ 
下 的 严格 整体 极 小 值 点 . 


GEW] 由 引 理 10.4 PRP 算 法 是 严 烙 下 降 方 法 ， 从 而 
《10.142) 成 立 ， 由 (10.127), 我 们 有 
(yt) Tok+1 ce ike) Ty2Ff (Er 24, (10 144) 
于 是 


e Vf _ IWF DP 
Anti = (2) P98 (EA CTI TT (EZRA (10.145) 


weii 引 理 10.6 我 们 得 到 


IVf (2 
nz 人 > Nt ee) 


对 所 有 eee. 用 Taylor 定理 , 我 们 能 写 出 
fort owe) =F (0) + ore VET 
HE laD VE, (10.147) 
Jeh rehat Alo ERE A, H (10.120), (10.121) 
0610.123), 有 
FO haps) SF) aal VE 
+ (ay +1)? eel Vf (a¥)'?, (10.148) 
令 


(40)? 
Ot Oye? (10.149) 
并 按 ony Ala? Wye, 我们 得 到 
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Flatt) <s( at, a) pe 


SAP) 一 到 多 和 Yo 


E [VF Ca) | (10.151) 
1 
2 


<f t U IY, (10.152) 


n+)? 
于 是 
FM) fe as WO Ive) |?, (010.153) 
因为 序列 {fo} MAB RRESS oo) 中 的 点 m 而 函数 了 在 
SO, a) 上 有 下 界 ， 从 (10.158) 推 知 {VF (a)i) i KF SE, 
MU Vile) =0, ANREP RON, BUR 满足 第 4 章 给 出 
的 .关于 了 的 严格 整体 极 小 值 点 的 充分 条 件 。 1 
类 似 于 Fletcher-Reeves 方法 , 我 们 可 以 令 
2 —Vf(2¥), k=p, 2p, 3p, = (10.154) 
来 定义 带 有 周期 性 重新 开始 的 PRP HE, Hop ph iW nk 
nii, 这 过 程 的 其 余部 分 如 同 早先 所 规定 的 。 读 者 能 证 明 , 对 带 有 
周期 性 重新 开始 的 PRP 方法 ,定理 10.7 也 成 立 。 对 于 PRP 方法 
的 这 两 种 形式 的 较 弱 的 结果 可 叙述 如 下 : 
定理 10.8 
BRFABAORCCRH 上 的 连续 可 微 实 函数 ， 令 CC, f) 
=a, HF SCF, o) 紧 致 ， 则 带 有 或 不 带 有 周期 性 重新 开始 的 PRE 
算法 是 严格 下 降 方 法 ; MAL, BOVE (2*) 40, A 


fle) > fla), k=0, 1, =, (10. 155) 
并 且 , 或 者 对 某 个 上 Vi (@") 一 0; 或 者 有 
lim{| Vf(a*) |} =0. (10.156) 


FR (0°) iy EP EE E VIC = 0 的 解 ; 并 且 . 如 果 它 有 唯一 解 


* 译注 ; BSS, 四 上 有 下 界 及 (0.153), BRA ES ie a F 
FES ch GG Bk FE aT A ERR MEH, A ek 
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a ESF, a), Wo" Je f FEO Ley RRR EL. 
EUIS R ERR ADL, 从 略 . 
现在 转 到 共 辑 牧 诬 法 的 收 全 速率 。 正如 我 们 已 知道 的 ， 如 果 
IRH H A 选 为 -Vf(wH)， 则 这 些 方法 有 二 次 终结 性 质 
Crowder, Wolfe 证 明了 , 一 般 来 说 , 一 些 共 气 梯度 法 的 收敛 速率 
不 坏 于 最 速 下 降 法 ; 即 它 不 坏 于 线性 收敛. 更 特殊 地 ， 令 je) 
= 52"0n, eC, 其 中 和 是 对 称 正定 阵 ， 设 在 第 瑚 深远 代 时 


已 有 点 oO 和 方向 8, KF dr BME Fe t+), RAN A 
点 ot, CREY) 一 0， 现 在 ,我们 可 以 如 景 速 下 降 法 那样 
选 ztti= VF (e), 或 者 如 PRP 方法 那样 ,用 共 思 梯度 公式 
gett — — VF (a*) + By2*, (40.157) 
Sn Bx 由 PRP 方法 中 的 (10.105) (10.106) 或 (10.107) 给 出 . 接 
着 我 们 关于 ones 极 小 化 Po oe), 并 达到 一 点 e, 
ot 的 两 种 不 同形 式 一 般 将 导致 不 同 的 两 点 oo) 在 最 速 下 降 
(SD) 移 动 的 情形 , 我 们 得 到 
k 4 
C EAC a vor ey 
l (10.158) 
TE gE E CCOR ANNE, 我 们 得 到 
HINTA) ktl _ k x EC") "OV, ak}? 
(FAQ SAS A E a, 
(10.159) 


FR -EAV — 4 二 vt 


Catt Qt = 

(10.160) 

PiL h (10.158) Æ (10.160), 有 
Ff (aE) < f Cob), (10.161) 
换言之 ， 任 一 共 罗 梯度 法 的 每 次 迭代 中 了 所 减 小 的 值 至 少 和 最 速 
下 降 法 一 样 。 既然 最 速 下 降 法 有 线性 收 化 速 率 , RYT AT BE, Bs 
由 (10.105) 至 (10.107) 定 义 的 共 红 梯度 法 有 不 坏 于 线性 速率 的 收 
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敛 速率 ， 然 而 ， 例 10.2.2 表 明 ， 用 (10.95) 选 Bf 时 ， 不 等 式 
《10.161) 不 一 定 成 立 ， 这 是 因为 用 Fletchor-Reeves 方法 选取 的 
Filey 2 Al 2? ARIEL, Crowder 和 Wolfe 也 证 明了 , 不 用 “标准 
的 "初始 方向 并 = 一 Yf(co), SRE BE REE A ie OE OK WT ERR HERE 
率 那样 慢 . 如 我 们 将 看 到 的 , 他 们 用 一 个 简单 的 二 次 函数 , 说明 这 
种 共 罗 梯度 法 可 以 只 有 线性 收敛 速率 . 

4 10.3.1 


令 f(w) =F Qo, op 


Q= 


00 1 

然后 假设 我 们 从 点 四 = (10/6, —~/V5//6, OFFER, H 
Æ z= (一 5/2 6, 7/2/30, —8/4V 5 )7、 注 意 VF(zD 一 Qo 
和 


0.10 0 
01 o|. (10.162) 


GS y et sim = ( CD <o, (10.163) 


a fe — AS PRE Ty. 其 次 , BE okt? 0.17 ARH, 其 中 Bs 由 公 
(10.105) ERR. 可 以 证 明 对 所 有 =1, 2, --, 


a= È, a (10.164) 
进一步 有 
Vie) =rAVf (a), 2 = rR, (10.165) 
其 中 一 局 | 
1 0 0 
o -4 _2Vv6 
R= 5 5 (10.166) 
2./6 pi 
d oe 
是 正 交 阵 .。 因此 
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le 3 Ifa] (10.167) 


at o CO w 
SAT SRR ER. J 
PHHH BRA a = — VF (a?) 和 周期 性 的 重新 开始 ， 
Cohen™, Daniel”, McCormick, Ritter”, Ortega, Rhein- 
boldt", Polak“ 和 Polyak” 证 明了 ， 在 如 (10.120) 那 样 的 关 
于 了 的 适当 假定 下 , 各 种 形式 的 共 轿 梯度 法 的 收 敦 速率 是 “nm 步 超 
ERTE HY, BP 
lim j 一 和 _ 9, (10.168) 


kz- 12 一 过 | 
其 中 是 了 的 极 小 值 点 。 其 中 有 几 篇 著作 还 证 明了 , 实际 的 速率 
是 nn 步 二 次 的 ，Daniel™% 人 9 证明 , 对 于 他 那个 利用 (10.105) 并 带 
有 “标准 ”初始 方向 有 2= — VP (@*), 但 不 带 有 局 期 性 重新 开始 的 共 
Fe i EE, 对 充分 大 的 有 
jane oe a” | <q | ak = a* | ELFI laa BN, (10 : 169) 
根据 理论 的 收敛 速率 ， 我 们 可 以 断定 ， 宁 可 采用 带 有 周期 性 重新 
开始 的 共 斩 梯度 法 ， 而 不 采用 连续 的 形式 . 共 轿 梯度 法 以 及 某 些 
Newton 型 方法 如 Goldstein-Price 方法 或 Ritter 方法 ， 它 们 的 收 
敛 速率 的 一 个 有 趣 的 讨论 可 以 在 MeCozmick、Ritter[21] 中 找到 . 
BK, 某 些 算法 是 否 受 欢迎 一 般 不 仅仅 取决 于 收敛 速率 ,而 且 还 要 
考虑 其 他 方面 , 如 每 次 和 迭代 所 需 的 计算 量 , 需 用 的 计算 机 内 存 容 量 
等 . 例如 ,应 当 指 出 , 共 轿 梯度 法 的 妆 敛 性 强烈 地 依赖 于 精确 的 一 
维 最 优化 ， 而 这 是 代价 很 天 的 . P, Klesig, Poak™ 修改 了 
PRP 方法 , 免 去 了 一 维 搜索 , (ARB TS RIE. 
Ortega, Rheinboldt* 20 对 于 本 章 所 述 算法 的 收 印 性 质 采 
用 统一 的 外 理 . 他 们 考虑 Br 上 的 连续 可 微 实 函数 了 和 由 
ek= gta F#0 (10.170) 
定义 的 和 迭代 下 降 方 法 . 为 了 保证 这 种 方法 的 收敛 性 , 步 长 w% 将 选 
得 在 每 次 欠 代 中 f 充分 " 减 小 ， 这 概念 是 借助 强迫 函 数 c 米 定义 
的 ,o 的 定义 域 和 值 域 是 非 负数 的 集合 且 具 有 性 质 : 对 非 负 数 的 任 
:102 


SPI, 

lim{o()}=0 ZM lim{*} 0. (10.171) 
Bilin o(t) = ct, 其 中 c>0, 就 满足 上 述 关系 式 ， 如 果 存 在 不 依赖 于 
at HAR G, 使 得 下 式 成 立 ， 

f(a) -Sf > LETRE, (10.172) 
MDR TF RE RIE f AIER e EARR. MRSA F 
界 , 则 当 有 ->co Bt, f(D -SATE H 


lim [ (TV DO _ 
pe ee 0, (10.173) 
现在 我 们 希望 说 , R0. 173) BA 
tim{Vf (2*)} =0, (10.174) 


这 断言 依赖 于 六 的 选择 ，Ortega 和 Rhoinboldt 定义 R" p Ak $ 
TERS fo} 为 与 序列 o), wrE Rn， 樟 度 相关 的 ， 如 果 对 某 个 强 
amo A 
ee ol vo) i). (10.176) 

例如 ,车 = —Vi(o"), WERK BRK FE oO) —1 成立 ， 因 此 扒 
知 ， 如 果 由 下 降 方法 产生 的 点 列 {az} 对 于 与 之 梯度 相关 的 序列 
{9 满足 (10.178), 则 (10.175) 瘟 涵 (10.174)， 从 而 得 到 了 趋 于 了 
GIS AYU ACHE. 特别 地 , 由 最 速 下 降 法 . 某 种 限 步 Newton 法 
和 共 统 梯度 法 选取 的 方向 已 被 证 明 是 梯度 相关 的 。 这 样 , 类 似 于 
本 章 所 给 出 的 收 伍 性 铺 果 可 以 换 用 这 种 方式 导出 。 收 伍 性 结果 的 
一 个 有 趣 的 拓 广 是 ， 用 梯度 相关 向 量 作 周期 性 重新 开始 的 下 降 方 
法 也 是 收敛 的 , 不 管 中 间 的 下 降 方向 怎样 选取 . 

最 后 要 注意 的 是 ， 共 罗 梯 度 法 的 很 多 背景 至 今 尚 未 完全 再 
解 。 如 周期 性 的 重新 开始 , 初始 搜索 方向 的 选取 或 者 回避 精确 的 
线性 搜索 等 怎样 影响 共 包 梯 度 法 的 执行 ， 这 祥 一 些 问题 仍 有 待 回 
$, 
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10.A. 


10.B. 


10.C. 


10.D. 


10.E. 


10.F. 


10.0. 
10. H. 
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练 J 


对 于 一 切 无 约束 最 优化 算法 的 一 个 “经 典 的 ”试验 函数 ， 是 
Rosenbrock H FEBA RRT, 

f(x) = 100 [x9 ~ (1) + 1-11), (10.176) 
THERA =A, 1). 
(2) 用 (410.5 给 出 的 式 子 计算 了 在 点 (一 1.2, D, ©, 0) 和 (1.5, D 
的 二 次 近似 , 并 求 它们 的 极 小 值 点 借 此 观察 Newton 法 用 于 这 函数 时 
的 性 态 ， 比较 在 二 次 函数 所 预测 的 极 小 值 点 上 了 的 值 与 在 所 给 的 点 
ESR, ESRI CHE BRAT? 
(by 求 在 前 面 三 点 的 每 一 点 上 了 的 梯度 之 值 ， 比 较 最 速 下 降 方向 与 
指向 了 之 极 小 年 点 的 方向 . 
WF O.194) MH, M P= (4, 6)? 出 发 的 Newton 方向 是 
什么 ?计算 用 Newton 法 到 达 的 相继 两 点 . 
证 明 ，(10.18) 和 (10.19) 提出 的 求 最 速 下 降 方向 的 问题 是 一 个 凸 规 
划 问 题 ， 其 解 由 式 (10.20) 给 出 。 对 于 以 (10.23) 代替 (10.19) 的 情 
形 , 证 明 同样 的 结论 , 且 解 由 (0.24) 给 出 ， 
将 最 速 下 降 法 用 于 练习 9.A 中 的 二 次 函数 (9.188) 和 (9.189)， 取 它 
们 各 自 的 出 发 点 T, 确定 其 相对 效率 7 ?由 (10.27) 给 出 ， 对 这 两 种 
情形 计算 C10.29) 给 出 的 7 的 下 界 . 
假设 我 们 用 下 式 修 改 最 速 下 降 法 : 

atl rt OB (a*) VI (CL), (16.177) 

其 中 BGs) 是 nx 正定 阵 ， 其 元 素 是 OME, TRAM 
fB E 所 确定 的 数量 ， 证 明 对 于 这 方法 的 与 定理 
10.1 相似 的 定理 ， 
画 出 Goldstein-Price 算法 的 框图 , 用 这 算法 去 求 (9.19 约 给 出 的 函数 
的 极 小 值 点 ， 从 《一 4 6)” 出发， 执行 三 次 选 代 并 比较 所 得 到 的 
@(a) 和 实际 的 Hesse 阵 V?F (x). 
UE BA FF RE (10.93) E (10.95) . 
极 小 化 R" 上 可 微 函 数 的 一 个 下 降 算法 构造 如 下 ， 从 中 导出 公式 
(10.106)， 选 一 点 ze RY 和 搜索 方向 t= — VF), Ba ERE 
搜索 达到 21, AM) VE we) =0, Sa? WE PRER,; 
(a) CIE YL 


10.1. 


10.J. 


Cb) EE FREY IAL, BD (22)? VF (2!) <Ò, 
Cc) Ee 如 和 V ODARE. 


WE AA 2? BEB RE 
2 一 —Vf (2!) + 8,21, (10.178) 
其 中 
— DEVE ae) 
py OE | (10.179) 


如 果 后 面 所 有 0 以 类 似 方式 定义 ， 证 明 相 应 的 B FLO. 106) So 
注意 这 些 推 导 并 未 假定 了 是 二 次 的 . 

证 明 ， 公 式 (10.95)，(10.105)，(10.106) 和 (10,107) 用 于 极 小 化 一 
NEFER O 的 二 次 函数 时 , 产生 相同 的 搜索 方向 ， 对 于 一 般 函 数 ， 
在 什么 条 件 下 ; C10. 106) 和 《10.107) 将 产生 相同 的 方向 ? 

对 于 (9.19 约 给 出 的 函数 , 用 Fletcher-Reeves 算法 进行 三 次 选 代 ,， 从 
(~4, ©) 出 发 ， 并 使 每 次 线性 搜索 是 第 8 章 所 描述 的 单个 二 次 近 
似 ， 将 所 达到 的 点 与 练习 10. 闻 中 所 得 到 的 点 进行 比较 . 


10.K. Shah, Buehler 和 Kempthorne™) 提出 了 要 小 化 R" 上 可 微 函数 的 下 


10.L. 


述 算法 ， 称 为 平行 切线 法 或 简称 Partan Ae, AEL, $a 
Vi), eRe f KR A 令 822 二 一 YFlz1) ,关于 ay BS 
Hf +092"), BM a?=ol +0357, BS 39 一 好 一 类, 这 称 为 加 速 方向 . 
a a RAME F KR t, GAB) 癌 之 后 ,交替 地 沿 负 梯 度 方向 和 加 速 方 
向 相继 作 线 性 搜索 , BPS 

z*=—Vf (1), k=1,2, 4, 6,..., (10.180) 

a= (gla), k=3, 5, 7, 9, o, (10.181) 
对 于 例 10.2.1 的 二 次 函数 , 从 (一 2, 和 7 出 发 试 试 这 方法 , BED 
步 . 
证 明 Partan 方法 用 于 E" 上 带 正定 阵 四 的 二 次 函数 时 有 下 述 性 质 ， 
(a) BB G@~2°), (al), e, (ol ~ 2-9) EF OAS, 
O AA EEANN VP) 所 生成 的 仿 射 集 上 了 的 极 小 值 
点 。 类 似 地 , aS E a, VP Co) i So) APE Oa Ef Rh 
WES, oe 21 Et VF). VAE, ea vf 《xz 3) 所 生成 的 仿 射 


”和 集 上 上 了 的 极 小 值 点 ， 


Ce) KE YFzo，VYFzD，VYFzDD，…，VYF(z 3 相互 正 交 。 
(d) Partan 方法 具有 二 次 终结 性 质 . 
105 


10.M. $A 10.158) = (10.161), 
10.N. 建立 全 10.3.1 HARRO. 164) % (10.167), 
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第 11 意 
aR ROE 


前 已 指出 , B* 上 的 可 微 实 函数 在 其 极 小 值 点 的 邻 域内 可 用 一 
个 二 次 函数 来 近似 , 基于 这 一 假设 的 极 小 化 算法 , 用 来 解 无 约束 最 
优化 问题 通常 是 非常 成 功 的 。 这 类 算法 最 重要 的 背 最 之 一 是 , 用 
已 算得 的 一 阶 导数 来 估计 二 阶 导数 ， 在 目前 所 知 的 那些 估计 极 小 
化 函数 的 Hesse 阵 或 其 道 阵 的 方法 中 , 大 多 数 可 归 入 变 尺 度 算法 ， 
此 即 本 章 所 讨论 的 主题 ， 自 从 1959 年 Davidon 的 工作 中 eH LL 
来 ,已 提出 了 许多 其 他 方法 、 这 些 方法 之 间 的 差别 主要 在 于 : 从 一 
次 选 代 到 另 一 次 友 代 时 二 阶 导数 估计 值 改变 的 方式 ， 以 及 所 用 线 
性 搜索 的 类 型 和 精度 ， 只 是 在 最 近 几 年 , 才 发 展 了 变 尺 度 法 的 车 
干 统一 处 理 方式 . 711.1 节 中 我 们 将 通过 导出 整整 一 族 算 法 来 介 
绍 这 样 一 种 处 理 方式 ， 这 族 算法 中 的 每 一 种 算法 若是 应 用 于 具有 
正定 阵 @ 的 二 次 函数 ， 则 所 得 的 搜索 方向 是 相互 共 孝 的 ， 从 而 具 
有 二 次 终结 性 质 ， 因 此 共 罗 方 向 将 是 连结 前 几 童 和 本 章 的 环节 . 
二 次 函数 的 另 一 性 质 被 嵌入 一 个 称 为 基线 关系 式 的 方程 中 ， 它 刻 
划 了 将 在 娃 .2 节 中 讨论 的 拟 Newton 算法 类 的 特征 , 能 十 分 成 功 
地 修改 变 尺度 法 , 以 适用 于 只 有 函数 值 可 算得 , 甚至 一 阶 导 数 也 必 
须 取 近似 的 情况 , 这 是 11.3 节 的 主题 . 

最 后 ， 在 二 .4 节 我 们 介绍 两 种 其 他 算法 ,它们 利用 了 求 极 小 
NRA KH. 在 这 个 意义 上 说 , 它 比 变 尺 度 法 超出 了 一 
步 ， 这 些 方法 是 新 的 ， 至今 还 没有 广泛 的 数值 经 验 可 供 引用 . 然 
而 ， 它 们 的 概念 形式 可 能 代表 着 发 展 下 一 代 无 约束 极 小 化 算法 的 
一 个 方向 . 

这 是 关于 无 约束 极 小 化 的 最 后 一 章 ， 无 约束 极 小 化 本 身 就 是 
一 个 重要 的 主题 ， 这 一 章 对 讨论 约束 最 优化 方法 的 后 面 几 章 也 是 
非常 有 用 的 . 
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11.1 一 族 变 尺 度 算法 


E 10.1 节 中 我 们 讨论 了 两 种 经 典 最 优化 方法 一 一 Newton 法 
和 最 速 下 降 法 . Newton 法 的 搜索 方向 由 2**+!1 一 一 [Vf(w*)] OVS (e*) 
给 定 ， 最 速 下 降 法 的 搜索 方向 由 ey ORE, 我 们 已 经 
知道 , 当 用 对 称 正 定 阵 4 定义 模 ao Ac Bt", 可 微 函 数 了 在 eo* 处 的 
方向 导数 取 极 小 值 的 方向 由 Asie") 给 定 ， 设 有 椭圆 形 等 值 


线 的 二 次 函数 fle) =F orQe， 其 模 定义 为 27Qw， 通 过 这 个 例子 ， 


容易 看 到 上 述 方向 可 能 比 最 速 下 降 方 问 更 有 效 . 当然 , 这 里 非 
Enolid 最 速 下 降 方向 即 为 一 RQ Vf), NA R= vS), MA 
它 也 是 Newton JA. 注意 ， 模 函数 是 一 种 特殊 的 尺度 外， 因为 
二 阶 导数 的 计算 合 有 特大 的 工作 量 ， 通 常宁 愿 采用 不 用 二 阶 导数 
的 方法 ， 所 以 就 建议 对 计算 Newton 方向 所 必需 的 Hesse fF Ay 
阵 进行 近似 , 或 等 价 地 , 可 在 每 次 迭代 中 改变 非 Euclid (RE). 
在 当前 点 w*, 利用 下 式 给 出 搜索 方向 tt 

ztt1— — Hi gf (a), (41.1) 


其 中 A, nxn, 它 从 一 次 迭代 到 另 一 次 送 代 是 变化 的 ， 这 种 
极 小 化 的 迭代 算法 称 为 变 尺度 法 ,注意 , 这 个 定义 比 在 某 些 文献 中 
所 能 找到 的 定义 更 为 广泛 一 些 , 那里 限制 互 * 是 对 称 正 定 的 . 实际 
上 ,我 们 在 以 后 将 看 到 , 这 种 对 称 正 定 阵 Hr 构成 了 变 尺 度 算 法 的 
一 个 突出 的 子 类 的 基础 。 由 于 11.1) Newton 方向 的 相似 性 ， 


特别 我 们 可 选择 矩阵 Hi 使 得 Er" 上 二 次 函数 TQ 的 极 小 化 


在 多 次 选 代 后 得 到 五 zs 一 4 ! 而 终结 ; 在 更 一 般 的 非 线性 函数 情形 
F, Ay 将 趋向 于 最 优点 处 的 Hesse HH [yf (to) 1, 所 以 也 有 理 
由 把 这 些 方法 称 为 拟 Newton 算法 . 遗憾 的 是 ， 在 无 约束 最 优化 
方面 的 研究 工作 者 并 没有 使 用 统一 的 术语 ， 读 者 在 文献 中 可 发 现 
关于 OE RIE ASS Newton ”方法 的 种 种 不 一 定 相同 的 定义 、 我 


SEE: Hi 4 Se AY A (AT AX), 加 文中 多 次 出 现 , 诺 文 未 子 改动. 
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们 将 限定 拟 Newton 法 这 名字 仅 指 变 尺度 法 的 一 个 子 类 ， 它 的 甜 
PE 五 zx 满足 所 谓 割 线 关 系 式 ,这些 方 法 将 在 下 节 中 讨论 . 

第 一 个 并 且 也 许 是 最 著名 的 变 尺 度 算 法 是 由 Davidon" 所 
出 的 ， 随 后 又 由 Fletcher, Powell?” 加 以 简化 ， 因 而 我 们 称 它 为 
Davidon-Fletcher-Powell 方法 或 DFP FR. 这 个 用 来 求生 工 
可 微 阔 数 了 的 极 小 的 算法 可 描述 如 下 ， 选 取 吕 ER" 和 任 一 对 称 
正定 的 nxn 阵 Ho. ÆR k RERE, RIGA TA of 和 矩阵 
Aya. 用 《11.1) 计 算出 搜索 方向 必 ， 应 用 第 8 章 的 方法 之 一 ， 寻 
找 出 f(a +a) KF ox 的 精确 极 小 值 点 ， 令 在 这 个 极 小 值 点 
处 的 ox 为 性 ， 取 二 wr t+, 再 用 下 面 的 修正 公式 计算 矩阵 
Hy 


k kN T k NT 

其 中 
mpl yt f(a") — Vilar), (11.3) 
如 果 Vrce 计算 就 停止 ， 否 则 进行 第 8 二 次 迭代 ， DFP 
算法 的 计算 经 验 一 般 是 令 人 满意 的 ， 如 果 求 极 小 的 那个 函 数 是 其 
有 正定 话 久 的 二 次 函数 , 就 可 建立 起 这 个 算法 的 一 些 重 要 性 质 . E 
具有 二 次 终结 性 质 , 它 的 搜索 方向 关于 ERAR, AEn kE 
代 时 有 五 .=Q-， AWxXtRKRRRAHGA MENT, 也 有 
Newton 型 算法 的 特征 .Sorenson 已 导出 DEP 方 法 的 几 个 有 
趣 的 性 质 , 并 把 它们 同 某 些 共 力 梯度 法 相 联 系 .。 下 面 我 们 将 看 到 ， 
DFP 方法 只 是 具有 同样 性 质 的 无 限 多 种 变 尺 度 方法 的 一 种 而 已 . 
附带 提 -- 下 ， 这 里 我 们 可 注意 ,在 第 10 章 中 讨论 过 的 共 轿 榜 
度 算法 也 可 看 作为 变 尺 度 法 ， 这 是 因为 ， 例 如 由 《ti0.96) 给 定 的 

fIeteher-Reeves 方法 的 搜索 方 问 的 公式 可 政 守成 

atti — HT of (a), (11.4) 

其 中 

oz (ky? 
110 


EPR PRED, WRT FRR OB H, 的 
修改 问题 . 下 述 推导 主要 基于 Huang’ 的 工作 ,对 于 一 大 类 恋 尺 
度 算法 , 他 发 展 了 一 种 优美 的 处 理 方法 . 

因为 二 次 终结 性 质 似乎 是 希望 极 小 化 算法 具有 的 一 个 性 质 . 
并 且 正 如 我 们 已 知道 的 ,对 于 由 (10.62) 给 定 的 函数 , 配 以 精确 一 
维 搜索 的 相互 共 印 的 搜索 方向 是 二 次 终结 性 质 的 充分 条 件 ， 所 以 
我 们 能 要 求 , 对 于 8 一 1 2 …， 所 有 的 搜索 方向 应 该 是 关于 @ 相 
AeA, BD ` 

(ATQ —(TQHEYf (a) =0, j=l, =, (11.6) 
如 果 我 们 再 假定 从 一 点 到 另 一 点 的 移动 如 同 定理 10.2 所 述 那 样 ， 
那么 


(orV7(o) 一 0， j=l, +--+, k, (11.7) 
方程 (11.6) 和 (11.7) 能 同时 被 下 式 给 出 的 矩阵 He 满足 ， 
HQ! =o, j=1, a) k, (11.8) 


其 中 心 是 任 一 实数 ， 假 设 在 每 次 迭代 中 决定 依照 下 述 关 系 式 修改 
EPE Ay, 

A= A, 1+4HAy, k=l, 2, PRR (11.9) 
其 中 矩阵 AA, BIRER 我们 来 找 出 校正 矩阵 的 一 般 形 式 . 
对 “一 上 也 写 出 (所 .8)， 再 从 (了 .8) 减 去 它 , 得 


AHQ =0, g=1, 2, =, k— i, (11.10) 
KCAL. 8) F1011.9) B 

AHQ" = w2"— Hy_1Qz*, (11.11) 

因为 po, YW 一 Qp!, 上 面 两 个 关系 式 成 为 
JAA =0, j=l, 大 一 十， (11.12) 
AA yy" = op" — Ay sy". (11.13) 

Huang 考虑 的 校正 矩阵 的 一 种 简单 形式 为 

AHy—=p (we) T+ Hra (o)?, (11.14) 


For uk) 全 是 待定 的 m 维 向 量 ， 首 先 我 们 看 到 ,为 了 满足 (11.12) 
和 《11.18), 这 些 向 景 可 这 样 来 选择 ,使 得 
tit 


ee E 
Cutty = {> as ea (31.15) 
w, =k, 
Df sate E 
Gye f UT? (11.16) 
—1, g=k, 


EAH a Me ABBA, RAYA CER 2 和 前 一 点 
"7 处 适用 的 信息 . ARNE RRMA OIE, 就 
有 


(2f)7Q2*=0, j=1, =, Bo—1, (41.17) 
或 者 , 有 
(Yr a Oe j=l, ey £—1. (11.18) 
从 (11i.7) 推 得 
(ory=0, j=l, =, k—i, (11.19) 
FH C11 8) HG 
(QH ay*=0, j=1, -…, k~i, (11.20) 
或 者 , 有 
(y) THE wyt=0, j=1, =, k-i. (11.21) 


作为 (11i.18) 和 {11.21) 的 结果 , 可 以 看 到 , WO ut A o h TRE 
式 给 出 ， 那 末 对 于 j=1,…, k1, ww 和 ww 将 满足 (了 .15) 和 
(11.16), 
w= anp tai H-7", (11.22) 
o* = ak, p*-+ aH 1-17", (11.23) 
其 中 af ERS RM, ME 11.15) (11. 16) HF J= 也 成 立 . 
f AZ, WEEE A, 是 按 下 列 公式 进行 修改 ， 


五 := Ay_at p(k)? + Hpt oE, (11.24) 

其 中 起 和 oY 由 (11.22) 和 (11.23) 给 定 , LW E 
(y =o, (11.25) 
(2)? y*= —1, (11.26) 


那么 只 要 在 每 次 迭代 时 者 进行 精确 的 线性 搜索 ， 搜 索 方 向 必 将 是 
HERH HERB AARNE K 
Hy= Hy1+C1A,(0D", (11.27) 
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其 中 避 Al C2 BAL nx 2, 

CR 一 [入 Ayay), Ol=[p Hinay], (41-28) 
A, ft 2x2 BE, 

A= | ae l. (31.29) 
Q21 @22 

EAFA w PA Se EAC ES, 则 讨论 可 进一步 推广 ， 因 为 
到 目前 为 止 , 这 种 推广 还 没有 提出 实际 的 用 法 ,所 以 我 们 仅 就 上 是 
测定 的 情况 进行 讨论 . 采用 1.24) 进行 修改 ,同时 满足 关系 式 
(11.22), (11.28), (11.26} 和 {11.26) 的 矩阵 A, 所 组 成 的 集合 ， 
称 为 Huang 和 矩阵 族 . 

4 o=1 fl 4 一 号 一 0 读者 可 以 验证 , 由 (1.2 给 定 的 DFP 
方法 的 矩阵 Ay 就 是 一 个 Huang HER TRARRE, AT 
求 具有 正定 阵 妨 的 二 次 函数 的 极 小 ， 些 阵 AL 的 修改 公式 中 参数 
的 选择 是 无 关 紧 要 的 ,这 是 因为 ,对 给 定 的 迪 和 五 所 有 的 了 nang 
族 和 矩阵 都 生成 租 同 的 点 列 . 对 于 一 般 非 线性 函数 ,可 以 证 明 所 生 
成 的 点 列 只 依赖 于 o. 在 后 面 ， 我 们 将 经 常 提 到 所 用 的 互 * 是 
Huang 族 矩 阵 的 变 尺 度 算 法 . 这 种 算法 除了 以 更 一 般 的 修改 公式 
(11.24) 4011.2) dh, He MA DEP 方法 一 样 .下 面 引 理 属 于 
Shanno, Kettler™", (AERA ARR. 

引 理 11.1 

假设 了 是 Br 上 的 可 微 实 函 数 , Mio 和 Hr-1 给 定 , 浇 
ECP oF (ak) 40 Al Cp")? VF (a) 一 0. ARK, 对 所 有 Huang 族 
矩阵 Ha, 10.1) Bh eS aka 的 方向 都 是 相同 的 . 

【证 明 】 RHC 

t= — Ai fo) = — HE Vf) oy) HIV (2*) 
(11.80) 
= — Hia Vf (2) — (ap tobe Hay) (yy) Haves a). 
(11.381) 
注意 到 
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; k 
Hiv = Hivi +E, (11.32) 


进行 某 些 代数 运算 后 , 得 到 
ake? = — {1 Haie ( y) H kavfe} 
[1 Ee Eas (a), (11.33) 
因为 方 括号 中 的 表达 式 仅 依赖 于 点 2 w 各 梯度 差 y= VS a) 
Vf), RANEE 富生 的 方向 (但 并 不 是 它 的 大 小 ) 不 依 
就 于 校正 矩阵 的 参数 。 J 
引 理 坟 .1 中 的 “ 非 正 交 性 ”条 件 vfa), HT 
KRR OR iE Fe") > f(a") (参看 前 一 章 (10.66)). 条 件 
Cp) Vf la") =0 BS HE FRAN BY. PAM, 
在 试图 归纳 地 应 用 上 述 引 理 时 ， 哄 的 选取 方法 必须 已 经 确定 ， 例 
m, WR SERBA AKTERI K nA, M ox 由 下 列 方程 的 


(2*)* Vf (tt os) = 0. (11.84) 
然而 , WE F ERREA, (11.34M a 的 值 可 能 多 于 一 
个 .在 这 种 情形 下 , 我们 可 用 “Curry 规则 ”来 决定 of 的 选取 , 即 在 
(AL. 34) BSW ac HR AE BE S (ettar) <f (ao *) A fon] 最 小 的 
那个 , 参看 图 11.1, 
现在 证 明 , 所 用 的 H: 属于 Huang 族 矩阵 的 任 一 变 尺 度 算 法 ， 
用 以 求 具有 正定 阵 @ 的 二 次 函数 的 极 小 时 ， 所 生成 的 点 列 邦 是 相 
PHY. REM nag 为 


keto |} 72 Gye T ak 
q+ [z (py | BF ). (11.35) 
定义 实数 Une 为 
Masa {1+aie(y")? Aah a)y. (11.36) 


mE 中 是 所 有 Huang 族 和 矩阵 确定 的 由 Gd1.33) 给 出 的 共同 方 
加。 因此 能 写成 

BNF oe tig), (11.37) 
STE ph) = aye oh Heeg, 又 由 (10.64) 得 到 
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Vr ty 


IE tA 
第 一 个 极 小 值 点 


zt 
图 二 .1 5/2 11.1 RAM Curry 规则 
pitta — (CHAED IAA, (a*) gh tt, (11.38) 


C+)? Og 
RE, FA ot 不 依赖 于 校正 矩阵 的 参数 ， 因 而 对 所 有 的 
Huang RERE, o*t 都 是 相同 的 。 用 方向 向 量 g”** 可 把 (10.66) 
写成 


Ho) f(r) LG eT, 011.39) 


一 数值 的 上 述 差 值 为 正 前 充分 必要 条 件 是 . 
(g Uf (a) #0, (11.40) 
N(11.34) 9611.35), 有 
(gD Tyf) = — (VF) Ayal VE) = | 
(11.41) 
一 (VF) Ay AV e), (11.43) 
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BARBS ETE 5K (11. 22) B11. 26), 以 Aya 表示 Aas, 得 到 
(vf Ca") H raV = (VF ao")? Ay ah (ao), (11.43) 
继续 倒 推 ,得 到 
(VF Ca") Hy vf (e*) = (VFC Hovf (a). (11.44) 
因此 ， 如果 ( 坟 .44) 的 右边 非 零 ， 则 ( 堪 . 和 0) 是 满足 的 ， 由 此 可 知 ， 
对 于 一 个 下 降 算 法 , 我 们 需要 
(Vf Hovf lor) #0, &-0,---,n—-1, (11.45) 


并 且 ， 使 任意 梯度 向 量 满足 (11.45) 的 一 个 简单 条 件 为 , Hot 


五 ? ) 是 正定 或 负 定 的 . 特别 地 可 选取 Ho 是 对 称 正定 阵 ， 在 许多 
变 尺 度 算法 中 就 是 这 样 选取 的 . 


设 搜索 方向 给 定 为 
g=—Hivf@), (11.46) 
ght —[1- POO AL. vf(e"), k=l, +, 1.47) 
Cyr f eae 


Fa Hra 可 再 用 Hea 来 表示 , 继续 递 推 , 最 后 得 到 


EHI gp y rT k 
git —[T -È EQ, later ), k=l, =. (11.48) 


从 性 一 点 OER HR, BAER MRM Ho, W44 (Hot 日 6)/2 
是 正定 或 负 定 的 , 我 们 利用 (11.46) 求 了 沿 着 下方 血 的 极 小 , 找到 
For 2. Met RR 1.48) 给 定 的 e 方 向 移动 ， 因 为 92 依 
BF a a VF Ca"), Vio) A Ho, 因而 对 于 Huang 族 的 所 有 修 
改 公式 得 到 的 g 都 是 相同 的 . E 9? 方向 求 极 小 , 到 达 oe?) 再 利用 
(11.48) 决 定 一 个 新 的 方向 9”, 这 样 得 到 点 列 2°, w, w, oo 我 
们 正 是 证 明了 下 列 定 理 . 

定理 11.2 

IER o H Ho BEAJ] a, e, o 是 由 利用 Huang 族 矩 
阵 修 正 公 式 的 一 个 变 尽 度 算法 所 产生 的 ， 如 果 求 极 小 的 函数 是 具 
有 对 称 正定 阵 氏 的 二 次 函数 , 那 束 同 一 点 列 可 由 任何 别 的 Hoang 
RBA FSS. 

Dixon”! 把 上 述 结果 扩充 到 一 般 非 线性 函数 , 他 证 明了 , 建 
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立 在 Huang 族 和 矩阵 基 础 上 的 变 尺 度 算法 的 某 种 子 类 都 产生 相同 
的 点 列 . 
定理 11.3 
假设 了 是 RE EMR, HOM A BASH. Me 
对 所 有 k, (ph)?>* #0, akitahe/af +0 H af H ME — ve EE 
(EVF, BRA AIS Huang KER Ay 的 变 尺度 算法 所 产 
生 的 点 列 2°, at, +, 将 只 依赖 于 参数 的 选取 . 
DEHN 对 给 定 的 点 D 和 和 矩阵 Bo, TS WARE 
法 都 是 共同 的 , 从 而 ot p 也 如 此 .根据 引 理 二 .1, 对 于 所 有 
算法 , Ole 和 和 ?也 是 共同 的 .现在 假定 对 所 有 算法 已 存在 
SERDAR at, at, o, a, RATRE EA Ae AY oP 也 是 相同 
的 . 根据 引 理 11.1, 对 于 所 有 的 Huang 族 和 矩阵 ， 当 有 =1 2, +- 
时 有 
gett 一 {14-48 yO HIV (o*)} Rp HiV (a), (11.49) 
其 中 
(yyt 
六。 一 了 一 Cee : (11.50) 
注意 , META k, 有 Bxp* 一 0。 因 此 ， 
Rye = — apaa {1 + ake (y) Hi_iVf(a*)} 
“RiriRrHE_Vf (a*) =0, (11.51) 
因为 根据 ( 卫 .16)、《11.28) 和 假设 条 件 ,得 
1ta "AL veo) = —( ah + NA, (31.52) 


我 们 必 有 


Rui Rr Hia Vfl) 一 0， (il. 53) 
#48 (11.15) (11.22) (11.32) 4 (11.50), 有 
k kN Tak k 
Baronii rr A GF 
= ai, RH ia Vf (a), (11.64) 


类 似 地 , 有 
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Byvt= vt p(y) Tot = a FOR 


(PI (pyy 
= af Rr H pa VF a"). (11.55) 
FFA, 根据 (1L.53) 得 
ie 
Rest! Goa (11.56) 
k 
Ry = 一 ee A Cit .57) 
现在 
ReH? = R Hgt RT Ry 14)" Eg 
(31.58) 
k-i k-i 
~ RAY st oR, Pe 
《CD 一 ) 7 
k-1 k-1\T 
= rar HE, (11.59) 
k-i mR—iN\T 
m E S: AE E DS a, (11.60) 


(pTI Ty ad 
用 递 推 方法 , 我 们 得 到 
RHla- WR +0 (UR Po (11.61) 
21 gma iji (pty? yt? 
代入 (1L.49), 我 们 断定 Ft 仅 依 赖 于 参数 w PRK, Be ot 
hint. J 
自从 Davidon 方法 提出 以 来 ， 已 系统 地 建立 了 许多 种 变 尺 度 
算法 ,大 多 数 使 用 的 校正 矩阵 都 属于 Huang 族 . 我 们 来 看 一 些 例 
f. 
这 种 校正 挫 阵 的 一 个 重要 的 子 族 可 根据 下 述 想 法 构造 ， 在 第 
k KERB, BET Ro", w 和 和 矩阵 Aya, 要 找 下 一 矩阵 . 展开 
了 的 梯度 
Ve) = VF (a) ty) — at) (11.62) 


或 
PEF, (11.63) 
如 果 Vf 是 非 异 的 ,就 有 
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pre Tv (ak) T. (11.64) 
注意 ， 对 于 二 次 函数 f，Hesse 阵 V BAER. WERE ARIES 
移 ， 则 (C11.64) 对 任何 一 步 pr 都 精确 成 立 ， 因为 我 们 感 兴趣 的 方 
法 并 不 直接 利用 Hese 道 阵 ， 而 其 如 同 第 8 章 的 割 线 法 那样 仅 用 
它 的 近似 , 所 以 能 定义 矩阵 He CAFIT, HAEN 
谓 割 线 关 系 式 

人 一 Hyy*. (11.65) 

基于 制 线 关 系 式 的 各 方法 的 若干 性质 将 在 下 一 节 中 讨论 .这 

里 仅 指 出 ， 如 果 和 矩阵 五 是 用 Huang 族 校 正 答 阵 来 修正 ， 以 使 
《11.65) 成 立 , MEAE E 

P= Hr_yti+p (uk) y* + Ay yr oT, (11.66) 

BLA (11. 25) #011. 26) WE, 必须 选取 ww 一 1， 若 进一步 限制 参 

数 的 选取 , 使 (11.29) 中 矩阵 Ar A, B aiem ah, WRT 
ri Al 由 参数 了 ， 比如 cz. 

AY LEA, AST Wo WE, BA RAR A, 将 也 是 对 

称 的 ， 它 们 由 下 式 给 出 
H,- Hp a ("Hy PC 


PHa (PE 
-a VY RO (11.67) 
a O D 
其 中 
wa Hy vp -T ot 2 Tet p*. (11.68) 


BDL, ote 是 会 选 得 不 合适 的 , 这 时 基于 这 些 公式 的 算法 就 要 
失败 ， 要 求 读 者 验证 , 如 果 
Kf gk) Pak at) TH gent 
atl) y Ea (11.69) 

WR 2***—O, 

B30 Ze (11.67) ACI.. 68) 2 ER E ELE RE 
法 的 一 个 子 族 是 由 Broyden SiN, Wa ARE. 
DEP Frick iy BIE PE, 显然 可 由 (11.67) 中 令 oh =0 而 得 到 . 
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Broyden 的 履 改 公式 的 一 个 重 此 背景 是 ,如果 Ao WE ER 
Eako, WKE A RE. 优先 选取 A, 是 正定 的 ， 
有 着 几 个 有 力 的 理由 。 首先 , 在 极 小 值 点 的 邻 域内 , 大 多 数 函 数 可 
用 一 个 具有 正定 的 Hesse PEAY — Mr Taylor 展 式 ( 二 次 函数 ) 来 很 好 
地 近似 ， 因 为 矩阵 He 近似 于 Hesse Wie, ER Ay 是 正定 的 , 这 
似乎 是 一 种 好 的 选择 . 其 次 , 本 节 所 讨论 的 变 尺 度 法 在 每 次 迭代 
时 都 要 求 作 精确 的 线性 搜索 以 找到 羽 ， 这些 搜 索 应 尽 可 能 有 效 . 
我 们 已 经 看 到 ， 当 Hr 正定 时 方向 *=—HALivf@) 是 下 降 
方向 ， 因 此 在 大 多 数 情 况 下 , 只 和 需 沿 着 7 在 正 的 ox A LARS 
的 极 小 值 点 。 利 用 正定 阵 的 另 一 个 理由 是 可 以 避免 BL 奇异 .在 
SKERRY H 奇异 可 导致 大 多 数 变 尺度 算法 失败 ， 这 是 
因为 如 果 对 非 零 向 量 yE BR"， 有 Ay=0, 则 所 有 后 面 的 搜索 方向 
zz 都 将 同 y 正 交 ， 因 而 它们 被 限制 于 E 的 一 个 仿 射 子 集 内 ， 结 
果 它 们 不 能 张 成 整个 空间 R, 无 约束 极 小 值 点 一 般 就 不 能 达到 . 

令 adamak, w=1 和 a 名 一 0， 这 就 给 出 了 满足 基线 关系 式 的 
一 个 修改 公式 ， 这 时 ，Huang 族 校正 矩阵 中 不 再 有 自由 参数 了 . 
我 们 就 得 到 (11.67) 的 一 种 特殊 情形 


Hr- Huat [1 | 


(o) y" (Pyy 
Ef nyk TH z H D k KNT 
A e LT) 


基于 这 个 公式 的 算法 是 由 Broyden!®®, Fletcher” 和 Shanno™™ 
提出 的 . 应 注意 ， 根 据 定理 11.83, 倘若 该 定理 的 假设 条 件 是 满足 
的 , 那 末 在 应 用 于 一 般 非 线性 函数 时 , Broyden 子 族 的 所 有 算法 将 
产生 相同 的 点 列 ， 这 个 结果 也 已 为 Dixonc# 所 所 观察 到 ，、 然 而 上 
述 算法 中 有 些 并 不 执行 精确 的 线性 搜索 , 因此 结果 可 以 获得 必 的 
不 同 序列 .例如 , Fletcher 所 提出 的 变 尺 度 算法 的 行为 和 DFP 
方法 并 不 相同 . 这 是 因为 Pletcher 方法 中 步 长 ox 的 选 法 与 DFP 
算法 不 同 、 在 本 章 稍 后 部 分 ， 我 们 将 回 到 避免 线性 搜索 这 个 问题 
上 来 . 
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参数 的 另 一 种 选择 是 令 =e, 由 (村.265) 和 {1.26)， 这 
HAAG o= 1, 我 们 得 到 
A= Heat Cp — Agi") ain tat Hgy"). (11.71) 
A ai; = 0 3$ AAC .25), 上 一 公式 就 成 为 
Hy Hy 2p Ay a, (11.72) 
类 似 地 , 4 aie = 0, 得 到 
Fy Hri t Pay (11.73) 
在 (二 .72) A] (11.73) 中 出 现 的 校正 矩阵 分 别 是 HE Pearson 和 
McCormick 提出 的 9。， 令 二 二 a 二 一 abo 一 一 8 flo=1, RAE 
得 到 另 一 校正 矩阵 , 结果 得 到 下 列 公 式 : 
Ay= Heat (yp Hr eet err ae i (11.74) 
如 果 选 取 Ho AAMT PRAY, ME R E F AL, 将 也 是 对 称 的 ， 
Ft ARETE SARE RAB 1, SEF (11.74) 的 算法 是 由 Murtagh, 
Sargent 提出 的 ， 他 们 在 后 来 的 论文 汉中 也 讨论 了 一 些 变 尺 度 
算法 的 计算 背景 . 
例 11.1.1 
我 们 来 说 明 如 何 用 变 斥 度 算法 来 寻找 二 次 函数 的 极 小 值 点 ， 
这 些 二 次 函数 在 以 前 一 些 例子 中 章 考 虑 过 .我 们 求 


min f (2) =$ (a) J Fas) 240 — 2a, (11.75) 


因为 根据 定理 匡 .2，Hoang 族 的 每 一 种 算法 都 生成 同一 个 点 列 ， 
所 以 校正 公式 的 特殊 选取 是 无 关 紧要 的 ， 不 妨 就 取 DFP 方 法. 
设 取 初 始点 "一 (一 2, 4)", Ho。 是 2x2 的 单位 阵 ， 现 在 Vf(w?) 
一 (一 12, 6)7, 这 漳 
12 

ite — HBV F(a") -( i i (11.76) 
同 例 10.2.1 进行 比较 ， 那 里 是 用 Wietcher-Reeves 方法 求 同 一 函 
数 的 极 小 , 我 们 看 到 , DEP 方法 同 Fleteher-Reeves 方法 的 第 -个 
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方向 是 相同 的 . TF (2? one") EF on 求 极 小 , 也 同样 地 产生 


26 6 
ot ae f (at) ai (11.77) 
<= 38 iy y. T = 12 ° es 
17 17 
因而 
26 60 
apa ee T7 
D 38 e = 30 » 
- a (11.78) 
i yr (12 17 
“Wd. 90. 
17 — I7 
下 一 个 搜索 方向 由 下 式 给 出 : 
a= ~ Hiv f(a), (11.79) 
其 中 
t L\?f 1 1\T 
Hi=H p (p ) Hoy (y7) Ho 11.80 
1 ot (py aD Hoy" ` 《 ) 
FHA 
i 0 1 4 -2 1 49 ”一 好 
H= aos oe 
| 。 1 |+ 去 | a A E 5 | 
1 F 385 241 
=a : 11.81 
al 241 891 | ee 
这 样 得 到 
6. _ 9. 
,1 f 385 241 | 五 | 39 
z zl att Si R a | (11.82) 
AT ~ 29° 


把 DFP FAH 2? (10.108) 472 Hy Fletcher-Roeves EL 
ESA 2? ak — F, RNR EE IR A AA AY, 
只 是 大 小 不 同 . 因而 用 DFP JAR O oe) KF os 的 极 小 , 所 
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达到 的 2 也 将 是 点 (1 D7, BDA F BRR IMA. Pha 
种 方法 产生 相同 点 列 ， 这 个 结果 并 不 令 人 意外 ， 因 为 给 定向 量 
2 CR? AE Q, 共 辆 向 量 的 方向 是 唯一 确定 的 ， 而 且 , 我 们 随后 
还 将 证 明 对 于 高 维 的 二 次 函数 ， 由 这 酌 种 算法 产生 的 点 列 也 是 相 
ira FA 

读者 也 可 验证 ， 出 EP ARASH Fee Be 
Hesse #4 QI, Hh Q fk (10.99) 2 IN, ] 

ELAR, 矩阵 H 等 于 QT, 这 个 事实 可 以 推广 .在 4 .8) 
中 令 k=n, 得 到 


A,Qe=ae, j=1, ---, 0, (11.83) 
因为 搜索 方向 x 是 线性 无 关 的 ,于 是 得 到 
H,Q=ol, (11.84) 
其 中 工 是 mnxw 单 位 阵 . 因此 有 
H,=wQ", (11.85) 
现在 , BEAR TE DFP 方法 中 o=1, 就 得 到 
H,=Q", (11.86) 


MSETPLIK, 诸如 Fletcher-Reoves 算法, 也 能 得 到 关于 Q 
的 明显 表达 式 ， 令 2 … HAR PKR OMAHA. E 
义 


S= È orgy (11.87) 


于 是 可 以 证 明 "8) 
(11.83) 
因此 
ah 2) o- 
S= 2 (27)? Qe? Q + (11.89) 
从 (11.87) 可 得 出 的 男 一 种 形式 为 
SA 
Sy 2 Cp : (11.80) 
ORE, A THF O E, 可 进行 如 下 :从 任 一 点 双 出 发 ,移动 到 
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wa aye", 其 中 i 是 任 一 正 数 , 并 不 要 求 它 使 得 jz 二 ona2) 达 
Mi. TRAE GY RP QM. Be MB =r a, 其 
F a, 也 是 任 一 正 数 . 类似 地 , HRB) ow, wo 计算 Sr, ERM ST 
Q7. 


pi 11.1.2 
RRAK HARHAA BB APE ETT 
of le {7-9 
2 -( E | »-( ey : (11.91) 


从 巡 一 人 一 2 4)” 出 发 ,假设 我 们 令 a=, 移动 到 


ee te E ~-2 ( 12 )-( 10 ) 
=g? +z -( 4 十 oS a} (11.92) 
于 是 


，/ 12 nf B\ o 1 a 
po) we- ia ) (1s ) 199) 


现在 令 as=1, AA o 移动 到 下 一 点 


a Te te 10 一 9 F 1 
g’ = gt pz -( = )+( -2 )-( zo 让 aia: 


我 们 得 到 


og ， 24\ | /-6 
a at ) wee) =( 一 24 } 4 -{ —42 l Se 
因此 


144 pl | 81 | 
s=- L72 36| | 189 441 | 
* (12) (42) + (6) 8) O) (6) + (21) 2) 
4t 
J 11.96 
一 1 3 (11.96) 
2 2 


Sa ETF, Q fey (10.99) Beh, J 
HERNED, EF Ag bo HE AY ed TE PE BK, 或 应 用 
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具有 Huang (GM Ho~ T ERIE, BOR POR TEN 
Q HY Uk BAM fa) (ERA BANS, SNE MAHI AA e 出 
发 , 那 末 点 列 oF, …， 将 是 相同 的 ， 对 基于 Huang 族 和 矩阵 的 所 
ARREARS ARAM, 重 写 式 (11.46) 和 (11.48). 


=- Histo), (11.97) 
+1 — — 1 gy)? By = oon 
g“ [z G (pty! JETE), k 1, 2, 
(11.98) 
它们 又 可 写成 
~ — HEYS), k=0, 1, ~, (11.99) 


其 中 


A, =: H Hoy*( pe)? $=] 1.100 
za 41 ae m cta ore _* 

2 一 (ph) Pye > a 100) 
x4 算法 满足 定理 10.2 的 条 件 , 因此 根据 (10. 75) 和 (11 .87) 


有 
(VFC) =0, j=l, e, k. (11.101) 
H 1.98) (11.101), 得 到 


ENY wy St CVF I) Hoy PY VE) _ 
(vf (at *)) Hovf ia) 名 (OTF 0, 


j=1, =, k, (11.102) 
但 是 ， 对 ¢=1, “ty 3 一 1 HDTVS E) =0, 因此 
(vf (a4) HVF (a) 一 0， j=l, =, k, (11.103) 
现在 假设 Ho 是 对 称 的 , (11.98) AT EH 
ght —[7- ED |p @). (11.104) 
S Ayo~ LT RAH, RNA 
g= —Vf (at) + (vf Peet (2*) gz (11.105) 
KaL 41) BAL. 44) (1. 101) TEY 


(GI Y= (VF) PVF), 
因此 最 后 得 到 
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! ` í EE T . k 

从 而 ,这 搜索 方向 与 Fleteher-Reeves 算法 的 情形 相同 . 

到 目前 为 止 , 仅 讨 论 了 包含 “精确 ”线性 搜索 的 共 轿 梯度 法 和 
ARETE. IRR ar 是 用 求 一 维 函 数 的 精确 极 小 值 点 来 选 定 的 
那些 方法 . 正如 我 们 所 见 , 这 些 方法 都 具有 二 次 终结 性 质 ，[8j] 中 
证 明了 ， 内 属于 Broyden 于 族 的 校正 矩阵 且 采 用 精确 线性 搜索 的 
任何 变 尺 度 算法 , EREA EER OW eR RT, 迭代 的 
精确 次 数 K 等 于 序列 Vf), QHovf(@), HY Vf @), … 
中 线性 独立 的 % 维 向 量 的 个 数 , 其 中 Ay 是 正定 的 ， 显 然 ,五 决 不 
能 超过 mw， 而 依赖 于 初始 条 件 ， 它 可 能 小 于 mn， 极端 情况 是 选取 
Hy=Q", XH K =i. 

Powell an Ux PERS APE ES RIER YE BR H 
确 线性 搜索 这 种 有 趣 的 情形 ; WERT, WE ox 的 选取 方式 使 得 
Fh +a" )<fle), MREBHE E 次 , 但 不 一 定 是 相继 的 
K 次 线性 搜索 后 , 算法 就 会 终结 , 其 中 K 就 是 上 面 所 定义 的 . 在 
RRR RARER BBR EH, BARS 
搜索 常常 是 变 尺 度 算 法 中 费时 最 多 的 部 分 ， 因此 , 可 以 避免 这 种 
精确 线性 搜索 的 变 尺度 法 就 引起 极 大 的 重视 .事实 上 , 往 后 我 们 
将 会 看 到 ， 基 于 某 些 类 型 校正 矩阵 的 若干 变 尺度 算法 不 需要 任何 
线性 搜索 ,也 显示 出 二 次 终结 性 质 . 

虽然 变 尺 度 法 和 相当 成 功 地 被 广泛 应 用 ， 虽 然 它们 也 被 扩充 到 
求解 约束 最 优化 癌 题 ,但 在 非 二 次 函数 极 小 化 的 情形 , 它们 的 收敛 
性 仅 有 少量 的 成 果 . 下 述 诸 收 敛 性 结果 属于 Powell 证明 十 
分 长 ,因而 略 去 了 . 

定理 11.4 

ESERE EERW CREATA RAA, TEA m> A 
中 每 个 z y, 满足 

VF (ay m|y|?, (11.107) 
AAEM OCR, WE S@)<f(@)H « AMRADE REM, 
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(11.106) 


Eh OFP 算法 产生 的 序列 o®, ot, oo, 收敛 于 了 的 唯一 极 小 信 
iw", 

EMF SARF, MEMS 和 定理 11.4 可 推 得 用 
Huang RR IRR A w= LEME RERR, eT fw ik 
AMES. TER, 上 一 定理 中 关于 了 的 条 件 列 涵 着 了 是 一 个 严格 吓 
mA, BREW RA eC R 上 的 Hesse 阵 的 特征 值 都 有 正 下 界 
m, FEMER DFP 算法 的 收 伍 速率 . 

定理 11.5 

设 定理 二 .4 的 很 设 条 人 性 成 立 ， 且 对 所 有 满足 了 Cw) 所 f(z") 
的 存在 一 个 常数 L 使 得 

Bf (a) Ff(a*)i no 
Boe Dow [Lem 
Dp jel, =, n, (11.108) 
MKH DFP 算 法 产生 的 点 列 w?, wt, … 在 (8.24) 的 意义 下 超 线 性 
Hee; 即 


"l =0, (11.109) 


由 此 还 可 得 出 ,每 一 种 具有 w=1 的 变 尺 度 算法 也 是 超 线 性 收 
伍 的 。 我 们 强调 这 一 点 , 因为 Powell 和 曾 猜 测 ， 前 面 定理 的 元 长 
的 证 明 ， 可 能 由 于 使 用 。=1 的 另 一 不 同 的 Huang 族 校正 矩阵 来 
代替 DEP 公式 而 缩短 ， 另 一 方面 , 上 述 定理 的 证 明 , 对 建立 w 关 1 
的 其 他 变 尺度 法 的 收敛 性 可 能 是 有 用 的 . 

Powell” 已 把 定理 .4 的 结果 扩充 到 具有 有 和 界 Hesse 阵 的 
实 值 凸 函数 上 . 

定理 11.6 

设 了 是 "上 的 二 次 连续 可 微 的 是 沙 数 ,对 所 有 4 满足 

|v Ce) | <M, (411.110) 
又 设 满 足 SOSS) 的 2 的 集合 是 紧 致 的 ， 那 末 DFP 方法 产 
AEH ART, a, +++ 的 每 一 凝聚 点 都 是 了 的 航 小 值 点 . 
Goldfarb 也 讨论 了 变 尺度 法 的 收敛 性 ， 他 证 明了 , 每 次 送 
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代 都 采用 精确 线性 搜索 的 每 种 变 只 度 算法 , 对 于 满足 式 (10.120)， 
即 wf Cor) HERE EE FO A Rf, SRE Ay 都 是 正 
定 的 且 它 们 的 特征 值 都 介 于 两 个 正 数 之 间 ， 那 末 算 法 将 收敛 于 了 
的 唯一 极 小 值 点 ， 他 也 找到 了 关于 某 一 类 变 尺度 法 使 矩阵 H 有 
这 种 性 质 的 充分 条 件 . 


11.2 # Newton 法 


我 们 刚才 基于 共 轿 方向 和 精确 线性 搜索 ， 导 出 了 具有 二 次 终 
结 性 质 的 一 族 变 尺 度 算法 . 这 里 我 们 将 讨论 另外 几 种 变 尺 度 算法 ， 
它们 的 成 功 应 用 , 并 不 需要 精确 的 线性 搜索 本 节 的 许多 具体 公 
式 既 可 以 根据 上 一 节 论 据 推 导出 来 ， 也 可 以 根据 本 节 所 用 的 论据 
推导 出 来 , 从 这 个 意义 说 ,本 节 的 矩阵 修改 公式 与 上 一 节 的 有 关公 
式 有 大 量 是 重复 的 ， 虽 然 前 节 的 变 尺 度 法 特别 适合 于 求 函数 的 极 
小 值 ,但 本 节 的 一 些 方法 原来 却 是 为 解 非 线性 方程 组 而 导出 的 , 这 
方程 组 并 不 一 定 是 令 函 数 的 梯度 为 零 而 得 出 的 . 既 热 我 们 的 主要 
目标 是 最 优化 ,我 们 将 继续 使 用 和 前 面相 同 的 概念 . 对 非 线 性 方 
程 组 感 兴趣 的 读者 , 可 容易 地 改写 下 列 全 部 结果 ， 
这 里 所 讨论 的 方法 对 第 10 章 所 述 的 Newton 法 提出 某 种 修 
E. 仍 设 我 们 希望 求 R" 上 可 微 函 数 了 的 极 小 . 为 求解 由 VF (a) =0 
给 定 的 % 个 变量 和 nn 个 方程 的 方程 组 , Newton FEF AF ERA 
式 所 支配 
wht? — oP [vf a yf (a), k=O, 1, =, (11.111) 
这 方法 的 两 个 主要 缺点 是 , (a) 为 求 Hesse 道 阵 需要 大 量 计算 , (b) 
方法 不 稳定 , 可 能 收敛 到 局 部 极 大 值 点 ,或 者 当 给 定 的 初始 值 估计 
ARIAT BT RE DEAA, FEER BE Ze Ue LEAR AR Hesse jit 
阵 的 近似 ， 而 不 项 要 求 了 的 二 阶 偏 导数 的 值 . 假设 有 一 非 异 的 
nxn Me Be, EMT VF"). BBA BER FR E W h 
gett, 
gt — Boa f (ek), (11.112) 
洪 此 方向 移动 到 下 一 点 oF, 
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gti = Të Laps t", (11.113) 
其 中 arni 是 一 实数 ,以 这 样 的 方式 选取 ， 使 得 迭代 最 后 能 收敛 于 
所 需要 的 解 。 一般 地 可 定义 

oma +62, (11.114) 
并 把 UF @) = VF @* +O) BE PAE O HR. BE 
IGLO DEE Sr OFC) day _ fy OF) pas 
d8 Hi On, 02, db Fi Ox; Ax, 7 
j=l, =, A, (11.115) 
这 样 , DR FRE at 处 Hesse 阵 的 近似 秆 ,上 面 这 个 关系 式 表明 
它 能 借助 于 dfa) /9wy) /99 的 近似 值得 到 ， 利用 11.115), 
这 样 一 个 近似 可 写成 
mk +14 +2 n 2 +i 
BOOED we AOD 4S SEO 20a), 
jul, s+, on, (11.116) 
如 果 已 求 得 了 YVF Feat + Oo ao 5x Ah A, 则 由 (11 .116) 
yaw 
my k k+l a +1 
SE) Se AO a Efe) (yr ~8), 
j=l, + n, (11.117) 


或 
UF Cat) — Uf (at Ot) yA CWT) (Cans — Oat, 
(11.118) 
在 本 节 方 法 背后 的 基本 思想 是 ， 选 择 了 的 Hesse 阵 的 下 一 次 
近似 值 Py, 使 之 满足 方程 
VFC — Uf (a + O2***) = Berr lag O, AL. 119) 
通常 选取 8 SFE, 于 是 得 到 
Vi (Ca¥?) — Uf (@) = ytt = Bpel at) = Brp t. 
(11.120) 
既然 对 于 迭代 过 程 来 说 , 比 起 Br 本 身 , 更 需要 的 是 Bor 我 们 定 
X H= By, (AL. 120) aE RR FIRE RH 11.65) 
gett Hypyt, (11.121) 
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RAR RR Be A, Re Ai Newtoniz™, 
在 这 些 方法 中 , 有 
ti — Heyf (a), (14.122) 
其 中 Ay 的 转 置 号 去 掉 了 , oh? 11118) ae, M ar 之 值 并 不 
一 定 要 使 Fe 十 az) 达到 极 小 . 
现在 转 到 如 何 修改 H: 这 个 问题 . 如 同上 节 一 样 , 假定 


五 ;= Ay 1t+4y. (11.123) 
于 是 由 割 线 关系 式 得 
AH yy” = p* — Hra". qai. 124) 
如 果 令 
(Bey) G" 
AH, CE | (11.125) 


Hh g FLAT Cy) y* 40 的 任意 网 维 向 量 ， 那 末 L124) 式 成 
立 ， 从 而 (11.121) 也 成 立 ， 此 外 ，(11.125) 右边 的 和 矩阵 在 使 
G1 .124) FER EMM h, 其 秩 是 最 小 的 。 当 然 , (11.125) 中 
RE AH. 的 秩 为 1， 因 此 一 般 的 秩 1 修改 公式 可 写成 


k KY fo NNT 
Hy Hy SET (41.126) 


Fire y” SF Gy)" <0, 

现在 考虑 几 种 更 特殊 的 拟 Newton 法 ， 它 们 所 用 的 修正 矩阵 
基 上 述 一 般 秩 工 怎 阵 的 特例 ,在 Wolfe 和 Barnes 的 基线 法 
中 , 向 量 多 的 选 法 如 下 : Man, 使 得 六 满足 

(yry =, i=l, -, ki, (411.127) 

因为 这 个 关系 式 还 不 能 唯一 确定 y*, MEN y* BW y*, n y 
HREH, BEXT Yy, e, i 这 一 步骤 可 来 用 Gram- 
Schmidt 正 交 化 方法 来 完成 、 如 时 Fen, 则 选取 y” 使 得 


(DT 一 0， i=k—ntl, =, k~i, (11.128) 
#=Hry, t=1 e, k (11.129) 


在 前 线 法 的 原来 形式 中 ， 它 实际 上 是 对 Hess Hig 7 Zz Xf Hesse 
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道 阵 作 近似 ， 现 在 的 形式 更 为 有 效 , 因为 它 不 必 去 求 逆 阵 . 

Murtagh, Sargent’? 证 明了 下 述 结 果 , 这 些 结果 萤 涵 割 线 法 
具有 二 次 终结 性 质 . 

定理 11.7 

给 定 使 ( 卫 .129) 成 立 的 各 步 pl, i=1,…, k, RH, M 
Wk MRS, 由 

ge — Av f(s") (11.130) 

给 定 的 这 一 步 ,或 者 是 线性 独立 于 以 前 各 步 ,或 者 它 已 到 达 了 的 去 
BA. 

【证 明 】 设 信 所 线性 相关 于 o, o, PY, 则 存在 不 全 为 零 的 数 
Bi +, Be, 使 得 


pind! Bg. (11.131) 
因为 了 是 二 次 函数 , 我们 有 fæ = 一 < 十 rw 十 可 wrQz, 从 而 
Y=—Qp. (11.132) 
因此 
yt = Oy +d =% Bap => By. (11.133) 


M (11.129), (11.181) (11.133), 可 知 
g= > BAyy = Ay > Biy = Hey", (41.184) 


FE HY (11.130) (11.134), He 又 是 非 异 的 , 就 得 到 
Vf) = y= VAI) — VD), (11.1385) 
也 就 是 
Vfl) =0, (11.136) 
I 
推论 11.6 
如 果 H: ARR ABE 1.129), Wok RAE BS H 
% 十 4 步 就 可 达到 . 
CEH] 因为 至 多 只 能 有 % 个 线性 独立 的 步 ， 所 以 由 前 一 定 
理 直 接 就 可 推出 ， J 
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PURE oe A SPE, E SEE EM R A I I 
Ho, As, --, A, BPE FQ E HBR, iE. 这 
H, 在 % 步 之 后 , 下 一 步 就 是 原来 的 Newton 步 , 一 定 给 出 解 ， 注 
意 ,在 二 次 函数 的 情形 , 步 长 大 小 对 于 有 限 终结 性 来 说 是 无 关 紧 允 
的 . 
对 一 般 非 线性 函数 ， 荐 线 法 可 能 需要 多 于 %% 步 才能 满足 某 种 
妆 敛 准则 ， 这 时 ,sr 由 (11.128) 选 取 , 经 验 表明 相继 的 搜索 方向 会 
成 为 线性 相关 , 因而 必须 对 (了 1.128) 作 一 些 修 改 . 

fede F (11.120) Ay Broyden 1965 FR H, RAT HAR 
的 途径 .他 注意 到 , (11.120) Fe VORRE eo tet N 
向 上 的 改变 联系 起 来 了 ,但 关于 VEO) PEARL P 的 方向 上 的 
改变 没有 提供 信息 ，Broyden 提议 , 设 yt! LIER F pet A 
方向 , Bess 的 选取 应 使 由 Berr 所 预 佑 的 VEO E ytt 上 的 改变 ， 
与 由 B, 所 给 定 的 改变 相同 ， 形 式 地 ,有 


Bury t =B y, (PT0, (11.137) 
读者 容易 验证 ,由 
Ba Brest Pa” (11.138) 


给 定 的 By 同时 满足 1.1207 11.13. BARTELE 
=H MPE BRA, PONAERR nxn & A Alo EAB 
Fiv, 可 以 利用 Sherman-Morrison 45%, 
—~1,,,,F 4—2 
soa (11.189) 
& A=By 1, A= Hga, u= Cy — Bee) / Po, v=p", 
由 上 两 个 方程 得 到 


H.= FT (He x PP Hrs 
k t-17 TD: Pe (11.140) 


这 样 , Broyden FRR AL. LDA BEURRE, TK 
g+! = gtl gk = dpt, 其 中 oz+i 通常 选 得 使 
IVE DISI. (11.141) 


(A+uv) t= At— 
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这 里 并 不 在 在 特别 的 理由 ,应 用 精确 的 线性 搜索 来 确定 步 长 , 因而 
Oy 也 可 取 为 1. 这 个 方法 并 不 具有 二 次 终结 性 质 . 

Broyden"® 注意 到 ， 如 果 Br 是 VFO NF RIEM, IRE A 
ox 一 1 的 算法 通常 是 稳定 的 。 然 而 如 果 Br 不 是 了 的 Hesse 阵 的 好 
的 近似 ,这 方法 就 成 为 不 稳定 的 。 这 算法 的 收敛 性 被 认为 优 于 制 
线 法 , 也 由 Broyden™” 作 了 研究 , 他 证 明了 , 在 适当 的 假定 下 用 于 
求 二 次 函数 的 极 小 时 , 他 的 方法 的 收敛 速率 是 超 线性 的 。 这 些 结 
果 后 来 由 Dennis"” 扩充 到 一 般 的 非 线性 函数 、 

$i 11.2.1 

我 们 对 已 熟悉 的 二 次 函数 


f(x) -5 (0) a = (29)? — mwa — 2a, (11.142) 


进行 少量 迭代 来 说 明 Broyden 1965 方法 . 
假设 Ho=I, HUMIRA RM a=, 从 办 一 《一 2 4)" 这 点 出 
RER, FE a bb f(a) = 26, Vfl) 一 (一 12, 6Y, 下 一 点 为 


haa Hovf (ot) ~( ig | (11.143) 
在 这 点 处 了 (2) = 152, vf (at) = (80, 一 12)”， 由 此 得 

ex 42 in 12 

y -| 7 | -( = ) (11.144) 


waft eHe 


cael aloe) 


0 1 J\ -18 
(11.145) 
Bp 
ena TA 
下 一 步 为 
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0.44176 0.29412 30 
ea [same aa N2) 


0.28529 0.88235 |\ —12 

—8. 82353 
= 11.147 
( 3.52941 ) ( ) 


因此 


10 — 8.82353 1.17647 
= = 11.148 
et aH sean )-( 500 CO 


在 这 点 处 (2 = —0. 90657 和 Vf (2) = (0,0.35294)", 这 样 ， 


2 30 一 30 
| 0.3529 )-( 一 12 )-( 12 3529 ) (11.149) 


H, Ef rb a Eh 11.150 
oe (P) Hy € ) 
0.41498 0.29352 
-| |. (11.151) 
0.24494 0.88058 
由 此 得 
—0.10359 
s= — Hay f(a) = 11.152 
r aS? ( —0.31079 } ( 
1.17647 \ / 0.10359 \ / 1.07288 
3 一 = 
( 1.52941 ) ( 0.31079 ( 1.21862 ) hae) 
te XA, 有 
0.00002 
8) = 一 0.9840 4) 一 154) 
F(a) 7, VFP) ( ed ) (11.164) 


可 以 看 出 ， 第 一 步 采 取 的 是 最 速 下 降 方 向 (因为 BRT). 3X 
一 步 之 后 的 收敛 情况 是 好 的 , 但 不 存在 二 次 终结 性 质 ， 如 果 计 算 
H, 得 到 
0.49560 0.49981 
| 0.48688 1.49945 i | 
这 个 抢 阵 是 见于 的 一 个 好 的 近似 ,@- 是 
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Q= (11.158) 


bof Sm 
ww wp 


注意 ,虽然 选取 Bo 是 对 称 的 , 但 后 继 的 矩阵 可 以 是 不 对 箔 的 ， 如 
Æ H4 H: 中 明显 着 到 的 那样 。 当然, 当 AKA ON, € 
们 必 将 再 趋向 于 对 称 . J 
这 个 例子 表明 ， 在 Broyden 1965 方法 中 〈 在 割 线 法 中 也 同 
FE), SR Ay 并 不 一 定 是 对 称 的 , 甚至 在 Ho 为 对 称 时 A, 亦 未 必 
为 对 称 . BOR Ay 被 要 求 为 Hosso 道 阵 的 近似 ， 而 Hesse 道 阵 是 
对 称 阵 , 因此 , 寻找 一 个 使 得 所 有 Ay 为 对 称 且 满足 割 线 关 系 式 的 
修改 公式 ,是 合情合理 的 . 
这 种 修改 公式 是 Broyden"", Davidon”, Murtagh Sargent 
和 Powell? 所 提出 的 对 称 秩 1 算法 的 基础 。 在 (i1.126) 中 ， 取 
A 
y“ = p* — yy", (11.157) 
WW HE AW 
ys: es Be gao . (11.158) 
显然 , WEAR Be, Hr 也 将 是 对 称 的 、 此 外 , 建立 在 这 
个 矩阵 修改 公式 基础 上 的 算法 具有 二 次 终结 性 质 ， 而 不 必 进 行 精 
确 的 线性 搜索 ， 我 们 用 下 询 事 实证 明 这 结果 :. 在 具有 非 异 阵 包 的 
二 次 函数 的 情形 , REAR -Hra YYY 无 一 为 零 , 则 关系 式 
(11.128) 成 立 , 即 


P=Hyy', i=1, =, k, (11.159) 
假如 
p= Away, i=l, e, k~i, (11.160) 
R. 现在 ,对 于 i=l, --, k-i, 有 
(p*— Ayr)? Y =(P Y — (Hry Y (11.161) 
=(P — (yp (11.162) 


TY 一 YY (44.163) 
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Hp p =Q ty edn, e, 成立， 因此 ,由 (11.158). (21.160) 
(11.163), 得 到 
H= Hy =y, i=l, =, 一 1 (11.164) 

又 因为 Hy 满足 着 线 关 系 式 ， 就 可 断定 (11.129) 成 立 ， 再 借助 于 
推论 11.6, 就 得 到 二 次 终结 性 质 ， 注 意 , 在 证 明 二 次 终结 性 质 时 ， 
沿 搜 索 方 向 罕 的 -- 步 六 所 赖 以 决定 的 吃 的 取 法 是 无 关 紧 要 的 . 
要 求 读 者 证 明 下 列 有 趣 的 结果 : 如 果 oy 的 选取 使 得 具有 正定 阵 纺 
的 二 次 函数 达到 极 小 , 那 林 对 称 秩 1 算法 的 搜索 方向 必 ,，…, 2K 
FORKBATH. 

既然 修改 公式 (11.74) 和 (11.158) 是 一 致 的 ,所 以 用 (11.158) 
修改 的 对 称 秩 1 方 法 的 矩阵 五 ;也 是 一 个 Hoang 族 矩 隆 、 取 
w=, 从 定理 11.3 可 知 , ÆR Pr 上 可 微 画 数 的 极 小 时 , 配 以 精确 
线性 搜索 的 对 称 秩 1 算法 所 产生 的 点 列 ， 将 和 把 Huang 族 中 A, 
限定 为 对 称 阵 且 He 满足 制 线 关系 式 的 那 种 Broyden 方法 所 产生 
的 点 列 相 同 。 基 于 一 般 Huang we i ay BE ey A R 
用 精确 线性 搜索 时 才 呈 现 出 二 次 终结 性 质 ， 而 对 称 秩 1 方法 无 须 
线性 搜索 在 二 次 函数 上 也 能 终结 .虽然 用 对 称 秩 1 方法 求 二 次 孙 
数 的 极 小 时 , 所 需 计 算 量 小 于 其 他 采用 线性 搜索 的 变 尺度 算法 ,但 
是 对 于 非 二 次 函数 是 否 仍 其 有 这 种 优点 还 不 清楚 . 

Broyden®” 列 出 选取 步 长 mx 的 三 种 常用 办 法 ,并 考察 了 它们 
的 效果 : 

1. 精确 的 线性 搜索 , REA (e*) VF (ae) 一 0. 

2. 步 长 的 选取 使 得 | 用 沿 方向 达到 极 小 或 有 所 减 小 . 

3.“Newton” 步 , 即 对 所 有 %,， =l, 

当然 也 可 设计 步 长 的 其 他 选取 办 法 , 诸如 在 第 10 章 中 提 到 的 
保证 “函数 值 充分 减 小 ”的 办 法 ,或 者 在 Goldstein, Price! 方法 中 
的 有 关 选 取 兴 法 . Dixon? 进行 了 各 种 选取 办 法 的 数值 比较 , 在 
另外 的 选取 办 法 中 ， 他 窒 验 了 每 次 迄 代 中 用 单个 二 次 通 近 或 三 次 
通 近 来 代替 完全 的 一 维 极 小 化 的 效果 ， 

RE AH Newton 法 的 收敛 性 是 通过 对 Hesse ih PE HE EB EE M 
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获得 的 , Broydon".® 102 提出 用 考察 某 种 矩阵 序列 的 性 态 来 分 析 拟 
Newton 法 的 收敛 性 ， 这 序列 中 每 个 矩阵 指出 了 矩阵 Ha 同 Hesse 
逆 阵 的 接近 程度 ， 假 设 我 们 求 R* 上 具有 非 异 阵 久 的 一 次 画 数 的 
极 小 ,定义 
E =QB,—I, (11.165) 
= HQI. (11.166) 
如 局 前 面 一 样 ,其 中 Bi= Hr! BIR, By 和 G4 REED 
必要 条 件 为 A =O, RAAT Ei 或 GF 的 秩 或 它们 的 某 
种 模 逐 步 减 小 到 零 ， 来 接近 Wy — -+ 这 情形 。 [10] 中 说 明了 割 线 
法 和 对 称 秩 工 算法 都 是 “ 减 秩 的 ”而 Broyden 1965 方法 则 是 “ 减 模 
B”. 

到 目前 为 止 , 我 们 主要 涉及 秩 1 的 拟 Newton 算法 .由 
(11.67) u (11.68) 给 定 的 Broyden 1967 年 的 修改 关系 式 是 作为 
一 种 特殊 的 Huang 族 矩 阵 导出 的 .但 是 原来 的 叙述 是 循 着 本 节 
所 用 的 拟 Newton 方式 ， 并 需要 一 个 秩 2 校正 矩阵 4Ex。 为 了 方 
(iL, 重 写 Broyden 1967 修改 关系 式 , 它 有 一 个 自由 参数 ， 


Hra yy" Hy a pe (pe)? 
Bam Ha py CB 


ae ohn ww), (11.167) 
其 中 
-He -D (11.168) 
令 
a%= — remind s (11.169) 


ARA (11.167), 可 得 到 Broyden™ 提出 的 一 个 特殊 公式 , 它 就 是 上 
节 讨 论 过 的 式 QIL.70) 
T (POT Hra | E 
oe Host [1+ Cp) Ty l (PY 
PYD Hra _ Hey p" 
(Pyy (P y = (11.170) 
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正如 已 注意 到 的 ， 当 配 以 精确 线性 搜索 上 且 Ho RHE ee 
用 了 于 求 具 有 正定 阵 久 的 二 次 函数 的 极 小 时 ,ais 的 上 述 取 法 保证 了 
上 式 给 出 的 所 有 Ay 将 也 是 正定 的 . 这 个 修改 公式 在 文献 中 过 常 
#524 Broyden-Fletcher-Shanno 公式 或 BES 458, Fletcher’ 证 
HT, Æ DEP 和 BES 修改 公式 之 间 的 一 个 有 趣 的 关系 ， 设 五 :是 
E DEP 公式 修改 得 出 的 ， 令 Bi 一 Tt Bi = Ay, 我 们 得 到 
By 


(yp I Cy) ps 
k k TB e B = aK KNT 


即 By 是 按照 和 BFS 公式 类 似 的 公式 来 修改 的 , 其 中 用 Be RE 
RE; Lp SY 互 换 相反 ， 如 果 瑟 ;是 用 BFS 公 式 修改 的 ， 
则 B: 相应 地 是 按照 和 DEP 公式 类 伺 的 公式 修改 的 .由 于 这 些 关 
系 , BUS 公式 有 时 也 称 为 相 补 DFP 公式 .在 Murray [85] 中 可 找 
到 从 各 种 不 同 的 拟 Newton 法 导出 的 Hesse PEA Pp it iA Ee By 
之 闻 的 一 般 关 系 ， 

DFP 公式 和 BFS 公式 的 另 一 个 共同 性 质 是 ， 二 者 都 包含 有 
建立 在 它们 基础 上 的 、 放 弃 精 确 线 性 搜索 的 方法 , 而 在 每 次 迭代 中 
使 用 某 种 减 小 函数 值 的 步骤 ， 以 保持 矩阵 Hr 的 正定 性 .这 种 方 
法 以 上 面 讲 到 过 的 “ 减 模 ” 方 式 收 仑 到 二 次 函数 的 极 小 值 点 . 

Fletchor” 证 明了 ， 相 应 于 这 两 种 方法 的 变 尺 度 和 矩阵 
Ae’ 和 BFS 的 任何 凸 组 合 , WRA LEEA, RN A 

Ay =n +92, (11.172) 
其 中 gs 0, g0, qtq, Kh, Fletcher 推荐 了 一 种 算 
法 ， 它 的 变 尺度 用 DFP 公式 或 BFS 公式 来 修正 ， 取 决 于 下 述 检 
验 ， 邵 果 

Cpt yt (Cy) Aya’, (11.173) 
NRA BFS 公式 修正 ;否则 就 用 DFP 公式 ， 步 长 的 决定 类 似 于 


上 一 章 Goldstein-Price 算法 中 的 方式 ， 取 一 小 的 正 数 8 十, 在 
ASAE, 计算 
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J 4 4l 


ce 


; f „k-11 Š ake 一 


在 oo, = LIN BUH, WE get, 1) 8, He eer 否则 减 
小 o, 直至 满足 g(a, âr), 并 肥 =o 3 +e", 
一 些 研究 者 认为 Hesse 首 阵 的 近似 Hy 的 正定 性 是 一 个 成 功 
的 变 尺 度 算法 的 基本 性 质 之 一 。 如果 Hr 在 每 次 迭代 中 都 保持 正 
定 ， 那 末 对 于 求 极 小 的 函数 来 说 ， 函 数 信 的 减 小 就 有 了 保证 。 然 
而 , 甚至 理论 上 能 保持 矩阵 A, 正定 性 的 算法 ,如 DFP 方法 , 也 会 
出 现 数值 方面 的 困难 ， 以 致使 这 些 撼 阵 变 成 奇异 或 不 定局 ， 前 已 
指出 , 可 以 证 明 , 一 旦 计算 到 一 个 奇异 阵 互 m AP Re, 
ght! … 将 不 能 张 成 定义 求 极 小 的 那个 函数 的 整个 空间 不 11、 
Murraya 提出 了 对 称 秩 2、 拟 Newton 算法 的 改进 形式 , 使 诸如 
DFP 或 BFS 方法 , 它 不 但 在 理论 上 保证 正定 性 , 而 且 在 实际 上 也 
能 保持 这 性 质 ， 他 们 用 解 下 列 线 性 方程 组 来 求 得 搜索 方向 2 
By**1 = — VF), (11.175) 
其 中 Bi 是 了 的 Hesse 阵 的 近似 。 如 果 Br 是 对 称 正 定 阵 , CAG 
成 
By =LyD LT, (11.176) 
R Dy GERRERA 1 AFEA, Ds= dhl 是 对 角 元 
HAIER ARE. A 1.176) 的 右边 称 为 Bs 的 Cholesky 
DE FECL «.176) (RA (11.175), 得 到 


LD Liat! = — yf (a), (11.177) 
THEO 可 很 方便 地 求 得 ， 首 先 解 
Ly" = — vf (a), (11.178) 
Hi y= 一 Of (w*) /8wm1 和 
v=- Silgi, 4-2 sn (11.179) 
再 解 
LEH = Dery, (11.180) 


BIAS ont? = yn; dan 和 
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3 k 个 

weet Wi Si „k1 a 

fea $ pat, isnt, 1, (1181) 
hey j=l 


现在 , 如 果 利 用 关于 Aly 的 对 称 秩 2 修改 公式 或 是 对 称 秩 工 形式 ， 
则 可 证 明 , Hs) = By 的 相应 修改 公式 为 

Br= Brat uiy (y Huu), (141.182) 
其 中 a uk ERR yw 为 向 量 , 它们 可 以 从 Hy 的 具体 修改 公 
st, 例如 DFP 和 BFS 公式 中 找到 ，B 的 值 通 过 下 列 公式 逐步 算 
得 : 


£, DLE = Byatt pty" eT, (41.183) 
By= Ly, DE? = ED E pie wT, (11.184) 

Pin, WA BES 公式 , 则 
phase =, (11.185) 


k 1 ee. k—1 
COT IC SY a = Uf aY), (11.186) 


作为 改进 了 的 变 尺度 算法 ，Gill-Murray 方法 的 重要 特性 是 矩阵 
By, 保证 为 正定 的 , AE A EATE e. 关于 这 种 方法 的 进 一 
Ea, 读者 可 参看 Gill, Murray?”, Gill, Murray, Pitfield@?’ 和 
Murray", Gill-Murray 方法 的 另 一 有 趣 性 质 是 , 它 可 以 很 容易 改 
成 不 用 导数 的 变 尽 度 法 .这 种 方法 将 在 下 一 节 中 讨论 . 


11.3 不 用 导数 的 变 尺度 算法 


本 章 所 述 的 变 尺 度 法 ， 在 许多 较 难 的 试验 函数 上 得 到 成 功 的 

应 用 ,于 是 开始 了 扩大 它们 适用 性 的 研究 . 把 这 些 方 法 用 于 求 那些 

导数 不 能 求 得 、 或 者 难于 计算 的 函数 的 极 小 . 既然 所 有 这 些 方法 

仅 用 到 一 阶 导数 ， 昌 然 的 推广 是 用 有 限 差分 近似 来 代 趟 解析 式 导 
数 . 关于 导数 的 有 限 差 分 有 两 种 常用 公式 ， 向 前 差分 为 

Ae = Lethe are) Ae gebLasa Cash 


中心 差分 为 
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a2. Z ean (oht) ol, s,m (11.188) 
其 中 Af (x) / dons 是 偏 导 数 af(z)7aw 的 近似 , hy 为 一 个 小 的 数 ， Ls 
表示 单位 阵 的 第 了 列 . 注意 ,如果 了 (w) 已 知 ， 为 获得 VE oe) 
似 , 向 前 差分 式 需要 再 计算 见 个 函数 什 ， 相 比 之 下 ,通常 更 为 精确 
的 中 心 差分 公式 则 需要 再 计算 2m 个 函数 值 ， 

首次 用 有 限 差 分 代替 导数 来 修改 变 尺 度 法 的 是 Stewartc” . 
他 的 方法 的 基础 在 于 ， 使 得 利用 有 限 差 分 时 所 含有 的 两 种 通常 冲 
突 的 误差 互 和 平衡。 WHA RAK, 作为 有 限 差分 公式 基础 指 
了 的 一 阶 近似 就 会 变 得 不 适当 (截断 误差 )， 然 而 yy 取得 太 小 时 ， 
在 仅 具 有 有 限 精确 度 的 计算 机 中 ,两 个 函数 什 可 以 变 得 不 可 区 别 ， 
因而 一 事 差 就 会 出 现 有 效 数字 相互 抵消 的 情况 .Stewart 导出 了 
这 两 种 误差 的 估计 ， 并 提议 选取 使 这 两 种 误差 估计 相等 的 及 t, 
这 个 计算 要 和 解 一 个 三 次 多 项 式 方程 , 在 其 中 也 出 现 Vtz) 的 对 角 
元 素 的 近似 值 ， 这 些 数 由 对 DFP 公式 算得 的 五 求 北 而 算得 , R 
北 时 利用 本 章 前 面 提 到 过 的 Sherman-Morrison™ 公式 、 如 果 计 
算 所 得 的 截断 误差 大 于 某 个 预定 的 容许 范围 ，Stewart 提议 用 中 
心 差分 公式 ; 否则 ， 在 变 尺度 算法 ,例如 DEP 方法 中 用 向 前 差分 
公式 作为 梯度 的 近似 ， 每 次 迭代 的 线性 搜索 仅 用 到 函数 值 的 计 
A, 它 类 似 于 Powell” 在 他 那个 不 用 导数 的 共 轿 方向 算法 中 电 提 
BERA. LUS 对 这 个 线性 搜索 方法 作 了 少许 修改 ， 他 也 比 
BES DFP 算法 的 Stewart 修改 方案 和 不 用 导数 的 Poweli 方 法 ， 
他 的 结论 是 前 者 需要 较 少 次 数 的 函数 值 计 算 ， 特 草 是 在 大 批 变 量 
的 情况 下 . 

Gill, Murray™™ 注意 到 ， 估计 Yo) 的 对 角 元 素 的 Btewart 
方法 ,其 结果 可 能 使 久 WARMER. BI, PRA 
差分 作 梯 度 近似 的 另 一 种 方法 ， 在 Btewart 的 方法 中 ， 从 一 次 过 
代 到 下 一 次 迭代 时 , PE ABH TY Ue A TR Ay 是 变化 的 ， 与 此 相 
F, Gill-Merray 在 算法 开始 时 固定 Ay 的 大 小 , Ay 通常 取得 与 变量 
o(j=l--,n) 的 某 个 假定 的 范围 成 正比 ， 消 数 的 极 小 值 点 已 知 
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是 在 这 范围 中 ， 因 为 向 前 差分 公式 (11.187) 需 要 较 少 次 数 的 函数 
值 计 算 ， 所 以 先 用 它 来 估计 梯度 US. 现在 假设 在 第 不 次 达 代 时 我 
们 已 有 了 Vito) 的 估计 值 . 先 检验 这 个 估计 值 的 大 小。 如 果 问 
前 差分 近似 产生 
RESI Vica, (11.189) 
Hop & EA a, AEE PE hE, 而 用 中 
心 差分 公式 (11.188) 计 算出 一 个 新 的 估计 值 . 有 了 用 向 前 差分 公 
UB DES} ARR Vi (Co) 的 一 个 近似 以 后 ， 再 用 前 述 的 
Cholesky 分 解 来 计算 ztt， 并 用 一 种 在 [22] 中 概述 的 有 效 线性 搜 
索 来 计算 ol， 以 近似 地 达到 fot ona) RD, Sotto 
tarat, 检验 这 一 步 所 取 的 大 小 ， 如 果 
fatt — ak] = [ptt] <8, (41.190) 
其 中 也 是 预先 指定 的 常数 ,而且 所 用 的 是 向 前 差分 公式 ， 旭 拒 
绝 方向 从 + 利用 中 心 差分 公式 来 近似 Vf (ex), 以 求 得 方向 的 
新 值 ， 一 旦 中 心 差分 公式 被 采用 , 以 后 逐次 迭代 中 就 都 用 这 公式 ， 
直到 步子 变 得 大 了 ,也 就 是 说 , 直到 对 某 个 ik 成 立 
lot l>B, (11.191) 
AAE UE W277) AS Se Bax OBE IE A GN- 
Murray 算法 是 极其 成 功 的 ， 特 别 当 连同 BFS 修改 公式 一 起 使 用 
时 更 是 如 此 这 个 方法 的 实现 还 包含 许多 细节 , 在 这 里 不 能 重复 
了 ,有 兴趣 的 读者 可 参看 [22]. 
前 述 两 种 方法 都 是 用 有 限 差 分 去 近似 一 阶 导 数 ， 然 后 利用 某 
个 已 有 的 变 尺 度 修改 公式 .另外 还 有 两 种 算法 可 认为 是 不 需 计算 
SH Newton 方法 .第 一 种 是 由 Greenstadt 提出 ,后 来 义 加 以 
改进 的 %5 下 ， 它 建立 在 同一 作者 更 时 工作 5 的 基础 上 ， 在 [25] 
H, EREEREER JH. 是 由 变 分 原理 导出 的 ， 这 变 分 原理 就 是 
在 满足 割 线 关 系 式 的 约束 条 件 下 ， 求 某 个 矩阵 模 的 极 小 值 . 这 些 
推导 已 修改 成 适应 于 不 能 利用 解析 导数 的 情况 ，Groenstadt27 的 
数值 试验 指出 ,在 大 多 数 情 况 下 , Gill-Murray-Pitfield 方法 执行 得 
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Bir. PRT ER T Fiacco, MeCormick®™, € h n(n+1)/2 4 
线性 搜索 构成 , 以 得 到 变量 函数 的 梯度 和 Hosse 阵 的 近似 值 . 一 
阶 和 二 阶 导数 的 估计 值 一 经 算得 ， 就 取 Newton 步 . 这 个 算法 的 
一 个 重要 性 态 是 ,对 于 二 次 函数 来 说 近似 值 是 精确 的 ,可 用 有 限 次 
迭代 求 得 精确 的 极 小 值 点， 在 一 般 非 线性 函数 情况 下 , 在 Newton 
步 之 后 ， 所 有 以 前 的 导数 估计 值 都 无 用 了 ， 和 权重 新 建立 新 的 近似 
fei. 


11.4 基于 非 二 次 函数 的 极 小 化 方法 


几乎 所 有 有 效 的 多 维 极 小 化 算法 部 要 利 书 求 极 小 的 那个 函数 
的 二 次 近似 式 ， 昌 然 这 种 近似 在 最 优点 的 小 邻 域内 通常 是 适用 
BY, 但 对 于 离 最 优点 较 远 的 点 可 能 并 不 如 此 . 例如, 保证 矩阵 Hy 
IEE FER Newton 法 对 于 不 是 二 次 的 非 凸 函数 ， 在 远离 极 小 值 
点 处 的 Hesse 逆 阵 可 能 得 出 坏 的 近似 。 所 以 , 试 着 去 修改 现 有 算 
TA, 或 导出 明确 地 考虑 非 二 次 函数 的 新 算法 , 看 来 是 合乎 居 辑 的 . 
本 节 介 绍 两 种 这 样 的 算法 ， 它 们 已 在 很 有 限 的 规模 上 进行 了 数值 
试验 , 与 现 有 的 变 尺 度 法 相 比 ,还 是 有 希望 的 , 我们 从 Biggs” Ay 
ERE. 在 这 个 方法 中 ， 对 现 有 的 修改 公式 诸如 DFP, BFS 
或 秩 工 公式 作 了 一 些 变化 ， 使 得 求 极 小 的 函数 了 的 一 些 非 二 次 性 
质 能 反映 出 来 ， 变 尺 度 算法 隐蔽 地 假定 了 , 在 由 算法 产生 的 相继 
两 点 之 间 , 了 是 二 次 的 ， 另 一 方面 ， Biggs 方法 假定 ， 如 果 定 义 中 
为 


pla)=f(a+az), (11.192) 
其 中 Al: 为 给 定 的 向 量 ,划一 维 画 数 四 能 适当 地 表示 成 
¢(a)=a|a—a* +5, (11.193) 


其 中 a>0, p>1. 这 是 一 个 具有 极 小 值 点 a" eR, Ela) 
的 项 所 支配 为 了 确定 jp 的 值 , 我 们 按 下 面 方式 进行 ， 设 在 某 一 
Ria! Sb BT EE pa), -MFR p a A BTS 
个 近似 值 2 (2°) = np" Ca), Hh 9>0 是 某 一 未 知 常数 。 现在 


令 


143 


1_ 0 0 P) 

ol 一 ao 一 8 PaT (11.194) 
FAR 由 oa) 和 P(e A BHI. Biggs 证 明了 ,用 这 些 数据 能 算 
i pA HK. EM 


é= ee af} ; (11.195) 
p= ie (11.196) 
AAR p Fl OT A FU SERRE FT 9 BI, 
Bee OnE 十 与 = 名 (41.197) 
h-r (ate) =a. (11.198) 


AES pMn hia, (4) FEER > oS Sat 
好 的 估计 值 为 


pCa) =- E TREL, (11.199) 
其 中 

,wf 6 1 

= 了 sorla 1), (11.200) 


从 下 面 的 推导 可 兄 , AER BBE To, 假设 利用 BEPS 修 
正 公式 (1.170), 则 B= Hz! 为 
Bum Beat r ea O Eea, (11.201) 
因为 By ERAN f HY Hesso 阵 waf(o) 的 近似 ， 了 沿 z y 
二 阶 方向 导数 为 (六) BA, Hop H=, 从 (11.201) 可 得 
rpa LEA? EEA vf] 
Cas Fl 
(11.202) 
再 从 ( 寺 .192) 和 ( 寺 .202) 推 知 ，BFS 万 法 是 在 (11.199) 中 恨 定 了 
六 一 1 读者 可 用 He 的 DFP 修改 公式 代替 (11.170) 而 验证 同样 
结果 ， 如 果 假 定 了 尚方 向 是 非 二 次 的 ， 则 二 阶 导数 的 适当 表达 
式 为 
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CB ENTE AEDI, 1.208) 
容易 验证 ,改变 了 的 BFS 公式 
y= Hrad [w+ YY Be | te 
ere + Gt y | Cp 
= Py")? Hes _ Hr (Cp) 
(CP) Y (Py 
mA (C1.203). ADs, WET Ay DFP 公式 为 
= * pp)? = Hra Cy")? Hen 
aeons (CPI Y PE © 2) 
我 们 已 看 到 ， 宁 的 计算 需要 解 两 个 非 线性 方程 ， 因 此 计算 赂 为 长 
些 . 主 本 法 的 一 种 简化 形式 是 假定 函数 S 沿 一 直线 可 麦 示 成 一 个 
次 数 至 多 为 三 次 的 多 项 式 ; 即 可 写成 
bla) =at bate(la) td(a). (11.208) 
Biggs” 用 一 些 简单 的 代数 运算 证 明了 ， 在 这 种 情形 下 n 的 显 式 
表示 为 


(11.204) 


fo B~1 
1 2(28+1—3ÉY ere 


其 中 和 有 户 基 待定 的 参数 ， 具 有 改变 了 的 修正 公式 的 完整 算法 非 
常 相似 于 任何 其 他 拟 Newton k, 它 不 含有 精确 的 线性 搜索 ， 而 
仅 要 求 函 数值 的 充分 减 小 ”除非 后 来 的 搜索 方向 和 几乎 
平行 , 步 长 as 取 法 为 


= min| 0.1, ar |, k<n, 


(41.208) 
1, k>n, 
令 
Lr = we 1 a (11.209) 
并 规定 
fn) 
{fe PA 
Am PO VA) (11.211) 


COATE N 
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注意 , 如 果 求 极 小 的 函 教 了 是 二 次 的 ， 邑 在 (11.206) 中 @- 0, 则 
(11.207) eet ho? =, 从 而 改进 的 方法 将 归结 为 普通 的 扳 
Newton 算法 . 
下 一 个 算法 是 建立 在 二 次 函数 的 某 种 推广 之 上 的 . 给 定 二 次 
函数 户 它 的 唯一 极 小 值 点 在 we Pr 处 ， 我 们 可 把 了 重 写成 
Fai w- (11.212) 


这 个 函数 也 满足 


fe)=F la-a vf) tf), (14.213) 
我 们 可 以 把 这 个 关系 式 推广 ， 如 果 
f(a) -1 (a~a*)* Vf) HF), (11.214) 


Fp mA AEM, WEN S A -fem KABA, Fm Tk 
数 的 Boler KRR (11.214) 在 e* 一 f(z*)0 时 的 特殊 情形 ， 
换 一 种 说 法 , 使 得 关系 式 
OPL) f] -Fet (1a) —-F(@") 
(11.215) 
成 立 的 可 微 函 数 了 是 满足 (11.214) 的 、 我 们 知道 ,对 于 二 次 函数 ， 
Newton 法 只 要 一 步 就 找到 精确 的 极 小 值 点 。 我 们 将 看 到 这 个 结 
果 也 可 推广 ， 这 借助 于 证 明 ， 步 长 有 适当 限定 的 Newton 法 恰好 
一 步 就 可 找到 四 - 齐 次 函数 的 精确 极 小 人 点 ， 对 (1.244) RR 
分 得 
wyf(o)- 寺 vej(e)( 一 co 十 二 yfe), (11.216) 


因此 
ot (m ILVE) vf (a), (11.217) 
5j 11.4.1 
考虑 5- 齐 4 次 函数 


f(a) = [5 (ea)"Q(e 5)], (11.218) 
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其 中 


aos a-f aa 
我 们 有 
Vi Ca) = [(@—2)"Q(@—2#)]Qla—2), (11.220) 
VF (@) = ((e~ 2) Q(@—#)1Q+2Q(@—#) (2-4) 'Q. 
(11.221) 
Fy 2 = (—2, 4)7, 则 Vf (2°) = (—648, 324)7, 
z 450 一 198 
vo) -| —198 426 | 
7 11 
Ivf) gia] amine | (11.222) 
因此 
-( 一 2 -s 7 11 ]/ 一 648 1 
E 4 | 44 25 l 324 )-(7), 


(11.223) 
TEAR EK, er 是 
- Jacobson, Oksman'37) 发 展 了 一 种 类 似 于 变 尺 度 法 的 算法 ， 
不 用 计算 二 阶 导数 ,应 用 于 求 2"- 齐 次 酒 数 的 极 小 时 可 在 有 限 步 内 
收敛 。 整 理 (11.214) 得 到 
oT F(a) = (wT VF (a) +-mf (2) — mf (a), (11.224) 
定义 WER, YER" ACR? WF, 


a" Vi (x) 
waa" vfs), =| m ym} F(z) |, (41.225) 


mf (x) ~i 
在 某 点 ER 处 求 什 ， 我 们 可 以 把 (11.224) 写 成 

ok Arye, (11.226) 
假设 我 们 计算 ut, et de 和 2 ”3 gs 使 得 RLA, 由 
令 


147 


pw ww 3 
F =` 有 y= : . (11.227) 
了 2yr aunt? 


(11.226) 可 写成 
kary, (11.228) 
其 中 “最 优 性 向 量 ” XE RO? 包含 着 这 个 问题 之 解 的 全 部 信息 . 
已 经 建议 ， 对 矩阵 工 一 进行 修改 来 递 推 地 求解 (1.228)。、 假 
设 第 次 迭代 时 有 l 
N= Ra", k=0, 1, (11.229) 
其 中 Be 一 了 a', B Ac [a m* ,mf Ca) 是 最 优 性 向 量 的 第 6 
次 估计 值 ， 取 Ro= 了 ,有 匡 人 = 入 为 一 给 定 的 n+2 Ae, BK 
和 迭代 时 ， 用 算得 的 向 量 y ZIER Ri! 的 行 向 量 ， 用 算得 的 数 
w= (Ny 逐个 更 换 ww 的 元 素 。， 即 
RE = Rir DE) — IT Rii, (11.280) 
mecati T [ (ak)? — Itt], : (11.281) 
其 中 五 是 (十 2) x Cn 士 2) 单 位 阵 的 第 了 列 ， 且 了 = 下 现在 由 秩 工 
RB ARO A 
a ae Babtyno EL, i] (11.232) 
从 (11.229)，(11.231) 和 (11.282) 得 到 A 的 修改 公式 
t put Beal Bedi ETAK- A 
对 a 4 ARE @"-FT UR PA, Tab Art 等 于 真正 的 最 优 性 向 量 和 . 
因此 m 十 2 步 后 Jacobson-Oksman 算法 (参看 下 面 ) 求 得 了 它 的 精 
确 的 极 小 值 点 , 齐 次 性 的 次 数 以 及 求 极 小 的 函数 的 最 优 值 . 
在 概念 化 的 形式 下 , 完整 的 算法 由 下 列 步 又 组 成 : 
1. 假定 办 ER 给 定 , 置 mo9=2，mof(zs) 一 0( 指 (11.225) 中 
^ 的 相应 初 值 -一 详 者 ),*=0, 对 所 有 的 zz, OH fo) HR 
TH. 


(14.288) 


w= — Povf (2°), (11.284) 
其 中 
aT, — 
fm ii; | (11.235) 
WRTS), ARS; 否则 用 某 种 线性 搜索 找 一 个 Oo, 
使得 (zw) 了 lw) 再 转向 步 又 3. 
3. Q= [r 2, 0}; Bo- 了 和 jl1. 
， 计算 yt, wt AA 11.232) ff (11.233) 计算 Rer W 
oh 
5. ask Akt, WE jent? HHS G1, 否则 改变 3 了 
y G1. 
6. 令 (下 式 中 om h AY hE, J (11.225) —3E#) 
okt = ak 4 Hu (a a), (11.228) 
其 中 or 或 者 为 十 1 或 者 为 I, 它 的 符号 与 — (a*a) yf Ca") 
的 符号 一 致 , 94 给 定 为 
i fs, sar a TAs}. (11.237) 
这 里 我 们 假定 m0, Ah, WR m<, 前 看 公式 中 就 用 0 一 2. 
如 果 由 ML.237) 得 出 前 纪 值 使 得 六 2 <FGc， 则 转向 步骤 4; 
否则 再 用 某 个 线性 搜索 使 得 函数 俯 充 分 减 小 ， 然 后 再 转向 步 了 又 
4, 
Svs (a) 小 于 某 一 小 的 正 数 时 ， 算 法 终止 。 贯穿 整个 算 
法 ,在 ( 革 .232 和 (1.2383) 中 出 现 的 分 母 都 要 检验 ， 如 果 
| Cy***) TRL} <e, (11.238) 
其 中 s 是 一 小 的 正教 ,就 令 aot 为 新 的 x, nha 1, 
i 11.4.2 
我 们 用 上 例 中 两 个 变量 的 一 - 齐 4 次 函数 来 说 明 Jacobson- 
Oksman 算法 ， 
假设 我 们 仍 从 2 一 (一 2,，4)” 出 发 ,f (2) 729， 令 0 一 0， 现 
在 
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6 一 min fi, [ogee are I} (11.239) 


=min{1, 0.00278} =0.00278, (11.240) 
因此 
a ~] 
31 7 
f(a) = 47 4032, (11.241) 
一 78.489 
1y sane 
vr (a) ( ) 
其 次 令 
一 0.2 
3.1 . 
P| > b Bl j-1,k=0, (11.242) 
0 
—78.4890 
45.4410 
= 1 = 156 .565 11.243 
y araog | VP ， ‘ ) 
—1 
—0.0127 0.5789 0.6039 一 0.0127 1.008 
0 1 
ae 0 0 ges 3.1 
0 0 1 0 2 
0 0 0 1 0 
(11.244) 


这 样 ,预测 的 极 小 值 点 在 2Y 一 (1.008,3.1)"， REG k=1,j=2, 
HA (r-r) 一 (一 1.208, 0)7, 
下 一 个 点 为 


—0.2 — 1.208 
g= 十 Cai . 
( ae fo ( k ) (11.245) 


Ay (a yf (2") > 0, 可 知 oa —1, 
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= min {1, [ Se | | Si (11.246) 


所 以 a= (1.008, 3.1), 在 这 点 处 
f(a?) ~4.7896<f (a), (11.247) 
这 一 点 被 接受 并 计算 


woe) -( 


-9.0881 
9.1572 

y= , w=19.2275, (11.249) 
4.7896 


—1 


(11.248) 


—9.0881 
9.1572 7 


出 此 得 
—0.0299 0.1486 0.7078 0.1187 
mee —0.0297 0.2567 0.1795 0.2270 (11.250) 
0 0 1 0 
0 0 0 1 
fi A27=(—0.416, 0.641, 2, 0)", 这样， 下 一 个 预测 的 极 小 值 点 
Yeo"? = ( ~-0.416, 0.641)", Sh=2, j=8, HG (oa 一 2 ) 一 
(1.424, 2.459)", 


下 一 个 点 为 
1.008 1.424 
EA (a? —&"?)* Uf (2?) > 0, & oa —1, 
2( 4.7896) 11 _ 
8,—min f, [Ae 7 BOR; i 1. (11.252) 
因此 “一 (一 0.416, 0.641)", 而 
f(a?) =6.5668>f(#), (11. 253) 


PDB BT. BRL A 这 点 被 抛弃 了 , RW = ek UK FAR 
新 的 点 空 。 这 种 方法 (参看 第 8 章 ) 的 一 次 选 代 给 出 具有 较 小 函数 
值 的 点 
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0.8721 eth —9 9892 
8 8N an 3) _ 
ý Pae ), e) Bet TI C ( 5.6134 } 
(11.254) 
K, 
-9.9392 
5.6134 
oe 3 
y? > ge81 p ~7.5386, (11.255) 
E 


0.0093 0.1403 一 0.2312 —0.0906 

— 0.0221 0.2546 — 0.0586 0.1739 
0.0427 —0.0118 一 0.3266 —0.2957 
0 0 0 1 


R= 


(11.256) 
HA = (1.0, 1.0, 4.0, 0.0)”, 

这 样 , 下 一 个 预 调 的 极 小 值 点 在 = (1.0 1.0)", 令 h=3, 
5 一 4 和 (ze 一 or3) 一 (一 0.6279, 1.0017)", BK 


0.3721 0.6279 | 
4 一 
( 2.0017 all 4.0017 ) Gan 
AA (2? —2*)* Uf (2°) >0, A os= —1, 
Wei fı, [269-0882 |} =1. (11.258) 


因此 ww 一 (1.0, 1.0)", f(a*)=0.0, vf (at) = (0.0, 0.0)", Mik 
在 精确 极 小 值 点 处 终结 ， 】 


练 J 


11.4. 7 (11.25) AR o=0, Rin Huang RER H, 的 修改 公式 , 并 使 其 满 
Je 
(a) 42, AK 2 HAM. 
(b) 4H, 为 对 称 秩 1 KEM. 
在 《121.25) 中 取出 = 一 1,， 求 修改 公式 ,并 使 其 满足 
(ce) 4H, 为 对 称 秩 2 SE. 
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11.B, 


11.D. 


11.E. 


(a) 4AF, 为 对 称 物 1 矩阵 ， 
应 用 建立 在 上 题 人 a) 和 O KMEKARAMENSE REAR, APF 
二 次 蝗 数 求 极 小 : 

f (£) = Cer ratta)? + (2 +e +03) + riwa), (11.259) 


取 初 始点 为 z8=- (二 ,1, EY, Bol, RARER, 算法 
所 产生 的 碟 和 是 于 一 致 ? 你 是 否 获 得 二 次 终结 性 质 ? 五。 是否 等 
FON 
HERE 上 函数 了 的 极 小 最 早 的 变 尺 度 算法 之 一 是 由 
Zoutendijk*) 提出 的 , 可 描述 如 下 : 令 2? 为 好 中 任 一 点 , 取 Hol, 
H, k Ae TH ot 

互 ,一 五， on aa , (11.260) 
在 每 次 迭代 中 都 执行 精确 的 线性 搜索 .证 明 由 此 修正 公式 所 得 的 
H, 是 Huang GME, w 的 值 是 什么 ? 应 用 Zoutendijk 方法 求 两 个 
变量 的 二 次 函数 的 极 小 ， 瑟 * 是 什么 ? 
inka Ha 是 对 称 正定 的 ， 且 采用 DFP 公式 进行 修改 。 证明; 
MRPO y> 0, N E, ERRER, 
已 经 知道 ，DEP 方法 对 于 求 极 小 的 请 数 的 数 苹 运算 不 是 不 变 的 ， 设 
xl, a, fat, 2, … 分 别 为 用 DEP 方 法 求 函数 faz) 和 函数 
子 (Co 二 cf (z) 的 航 小 所 产生 的 点 列 ， 其 中 c 为 一 正 数 , ce 天 1。 说 明 这 
两 个 点 列 并 不 恒 癌 。 你 能 次 把 这 个 结果 推广 到 Broyden 子 族 算法 和 
Huang 族 算法 上 去 ? 讨论, 对 ze WUT RR, Barer), 代 
BRIO, RAR SGD KR, Bo DEP 方法 所 得 的 点 
列 产生 什么 影响 ? 


”Oren' 并 有 明了 对 DEP 算法 稍 作 改变 的 一 种 方式 ， 使 得 它 在 上 站 所 


讨论 的 函数 数 乘 或 变量 数 乘 下 ,都 是 不 变 的 。 例如 , 他 提议 矩阵 Ha 
在 修改 之 前 乘 以 因子 


DT 
Ce TH y (11.261) 


. 这 等 价 于 采用 下 述 改变 了 的 DEP 修改 公式 : 


= HV) a 1 POTY pp» 
mo mar pi E OIF 
(11.262) 
IA: MRE LRBRAR EM LH RRA RE, EH RS@ 和 
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11.6. 


11.4. 


44.1. 


11.J. 


11.K. 
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ef (ax) HE Nat, HARD HE PAAR IDO UA ot, 7, EL, BP, os 
设 用 DFP 方法 求 R 上 具有 对 称 正定 阵 息 的 二 次 函数 的 极 小 ,证 
DICE AME BLK, ERARUS 


H,=P,4+C,, k=1, 242 (11.263) 
其 中 

Pay* (Pav)? De. 
P=P, 1— -1 Ne ， (11.264) 

ase ST 
Ec: “yt m 
C =0, 1+2, (11.265) 

E 2 


E Pi=Ho, Co=0, [提示 : Hirs P, 1.) 把 上 述 关系 式 结合 
《11.89) 以 证 明 C=. BG P= 
证 明 ， 如 果 (I1.69) 成 立 , 则 由 (1I.67) 和 (11.68) 给 出 的 Broyden F 
BeBe Ay KE tD, 
BA AAHSER SM, BU, V Anxm nem, 证明: (4+0?) 
有 道 阵 的 充分 必要 条 件 为 CATAT Bie, HHT mb te 
RE. HER 

(A4+UV?) SA AU + VTATU) VTA, (11.266; 
把 这 个 公式 同人 1L.139) 式 比较 . 
证 明 : 如 果 一 个 奇异 的 妃 * 用 于 变 尺度 算法 中 , 则 所 有 后 继 矩 阵 也 都 
是 奇异 的 (除了 非常 特殊 的 情况 ). AAR H: 对 后 继 的 搜索 方向 
有 什么 影响 ? 
证 明 DFP #1 BFS 修改 公式 之 间 的 “互补 ”关系 ， 如 果 A. RARR 
EL 公式 来 修改 ,那么 近似 Hesse 阵 的 修改 公式 是 什么 ? 


. Powell) 提出 了 一 种 求 BR" 上 函数 了 (7) 极 小 的 变 尺 度 方法 , 在 这 算 


法 中 , 近似 Hesse 阵 采 用 下 列 公式 进行 修改 : 

B,=B,1+ Cy*— Brp") (pe)? py Be)" 

7 (p*)*p* 
ez (p*)* (y* — Brp p (p*)* 267 
Co) or? : Coen 
(a) 寻找 Hesse 道 隆 的 近似 矩阵 Hy Bz! 的 修改 公式 , 并 证 明 AIM 
RRR. | 
O) 设 了 是 具有 非 异 阵 @ 的 二 次 函数 ， 证 明 
ofr Pen? _ only P 

B,~Q~[1- FFP | Bo -ERR 1.288) 

《6) 证 明 ， 如 果 修改 公 起 (11.267) 重 复 应 用 和 次 , 且 向 是 和 ,22 


11.M. 


11.N. 


11.0. 


pP 相互 正 交 , 则 在 二 次 函数 情况 下 , B= Q. 

证 明 ， 建 立 在 对 称 秩 1 公式 (11.158) 基 础 上 的 Murtagh-Sargent 变 
尺度 算法 的 步 长 co 如 果 是 选 得 使 具有 正定 阵 介 的 二 次 函数 沿 * 方 
向 达到 极 小 , 则 搜索 方向 2, --, RF OARS, 证 明 时 不 要 利 
用 H, 是 Huang 族 矩 阵 这 一 事实 ， 

假设 ER" EYES A Pew Newton 极 小 化 算法 由 下 述 一 般 公 丈 
给 定 ; 


eHog*ta ya", k=0, 1, .- (41.269) 
其 中 
sle H Nfa), k=0, 1, … (11.270) 
H, 是 对 称 正定 隆 ， 建 议 沿 六 方向 作 子 的 单个 二 次 近似 式 ， 以 此 来 
选取 步 长 ,做 法 如 下 : 
> 
o =r" +a, oO, (11.271) 


at ae F@)>f@) NERA, 选取 


E (aie) ?(UF (a) AVF a") 11.272 
ot CF JED OON (70) 


证 明 : 到 和 是 了 沿 2*11 方 向 的 二 次 近似 式 的 极 小 值 点 , 并且 0 <a, 21 
<ar, 

对 本 章 中 提 到 的 基于 矩阵 修改 公式 的 变 尺 度 算法 ， 从 下列 理 论 考 质 
进行 分 析 : 

a) 二 次 终结 性 质 ( 有 或 没有 精确 线性 搜索 ). 

(b) 76M 五; 的 正定 性 ， 

Cc) 稳定 性 ， 

(d) 矩阵 A, AFOFO 的 收敛 性 。 

SORA, 可 查阅 适当 的 参考 文献 . 
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第 12 a 
惩罚 函数 法 


本 意 开 始 讨论 求解 约束 非 线 性 规划 的 方法 .我 们 主要 处 理 如 
下 和 问题， 如何 把 约束 规划 变换 为 一 个 或 多 个 等 价 的 无 约束 规划 ， 
使 之 能 运用 前 几 章 讨论 的 方法 求解 . 

在 所 有 乱 罚 函数 法 背后 的 直观 想法 是 很 简单 的 。 假 设 我 们 要 
ER 的 一 个 真子 集 X 上 寻求 一 个 实 值 函数 的 极 小 值 点 . 当然 ， 
如 同 我 们 即将 看 到 的 那样 , 对 目标 函数 作 某 些 收 改 后 , 这 个 约束 最 
优化 问题 能 变换 为 无 约束 最 优化 问题 .定义 
0 sE Z, 


O O (12.1) 
F ETARA H E EA F EARR ME: 
min F(w)=f(a)+P(2), (12.2) 


Heh f BREER 上 定义 . Boe PF RD RR EE f 
EX ER), 函数 卫 称 为 惩罚 函数 ， 它 对 落 在 能 行 集 外 的 点 加 
(ARED. RM, 在 实际 中 , 因为 邓 在 的 边界 上 不 连续 、 
EX 外 取 无 根 值 ， 毛 以 无 约 东 最 优化 (12.2) 无 法 实现 ( 某 些 平凡 
的 情况 可 能 除外 )， 用 某 个 “大 的 "有限 数 惩罚 代替 十 cc， 并 不 能 
使 问题 简化 , 因为 数值 计算 的 困难 仍然 保留 。 而 且 , 不 作 附 加 假定 
的 话 , 增 广 的 处 处 有 限 的 目标 函数 的 极 小 与 了 在 AX 上 的 极 小 可 能 
不 重合 . 

FARE TH) PBR AE A AR, LE AR 
KAS FF A, ERCP AP, ESRA -ARMEER BTR 
AEB BIA, PR ACA RR MEA oe FA JB — ARE 
行 点 , 它 满足 某 些 必要 或 充分 的 最 优 性 条 件 、 和 通过 有 关 的 无 约 
束 问 题 来 研究 约束 问题 的 最 初 建议 大 概 是 属于 Courant? 和 
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Frisch?! BY. 

前 三 节 处 理 这 样 一 些 方法 ， 它 们 之 间 的 差别 在 于 趋 近 于 解 的 
途径 和 参数 的 选择 .。 这 些 方法 已 成 功 地 在 若干 应 用 中 被 实现 《人 铺 
an, BA (4, 21, 831，511)， 而 且 被 认为 是 目前 求解 约束 问题 的 主 
要 的 有 效 工 其 之 一 . 

近年 来 的 许多 研究 工作 ， 致 力 于 通过 免除 求解 一 系列 无 约束 
问题 ， 以 改进 惩罚 函数 法 ， 导 出 了 约束 问题 的 某 些 变 换 ， 在 其 中 ， 
只 楼 取 充 分 大 的 参数 , 就 只 需 一 次 无 约束 极 小 化 。 这 样 的 变换 与 
前 几 章 中 分 析 过 的 非 线性 规划 的 Lagrange 式 以 及 景 优 条 件 有 密 
切 联系 ， 这 些 方法 在 12.4 节 和 12.5 节 中 讲述 ， 最 后 ， 在 末了 一 
节 讨 论 抱 罚 西 数 法 的 某 些 计算 背景 , 


12.1 外 部 惩罚 函数 


本 节 提 出 一 类 求解 基本 非 线性 规划 的 方法 ， 该 规划 在 第 3 E 
首次 引入 : 


(P) min f(e) (12.3) 
受 限制 于 约束 
g(e)20, i=l, ++, m, (12.4) 
hw)=0, j=1, -, p, (12.5) 


FOP, gu ot Gm, Aa, oot, hp 假定 在 E LES. SX RRA 
集 , Bp 
X={eiwe R", o(e)>0, t=], ++, m 
hi(æ)=0, j=1, =, p}. (42.6) 
外 部 惩罚 函数 法 通常 用 这 样 一 系列 无 约束 极 小 化 问题 求解 
(P) 这 一 系列 问题 的 最 优 解 从 能 行 集 外 部 趋 于 (P) 的 解 . 在 这 一 
系列 无 约束 最 优化 中 , 惩罚 如 于 每 个 zE 互 , 随 着 由 一 个 问题 进入 
另 一 个 问题 , 惩罚 逐步 增加 , 促使 无 约束 最 优点 走向 能 行 焦 、， 这 里 
提出 的 算法 应 归于 Zangwin ,那里 能 找到 更 详细 的 内 容 . 
定义 变量 mE B 的 实 值 连续 序数 小 和 如下; 
Vn) = |min(0, 7)| . (12.7) 
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Em) = nl’, (12.8) 
其 中 ast 和 B 之 1 是 给 定 的 常数 ,通常 等 于 1 或 2. 令 


sæ) = (ge) + Ele), (12.9) 
(a) = 3 [min [0, gw)] KESOI (12.10) 
ERB (P RR, EF 
3(æ)=0, we X, (12.41) 
s(w) >0, cEX, (12.12) 
对 于 任何 正 数 P, 我 们 定义 问题 (P) 的 增 广 目 标 函 数 为 
F(a, p)=f(«) +2 s(2), (12.18) 


并 且 注 意 到 , Flo, p) 一 了 f(z) 成 立 的 充 要 条 件 为 2 是 能 行 的 , 否则 
F(a, p)>f(a), 4 pO Rt s(@)/p 这 一 项 近似 于 (12.1) 中 不 连 
SEK TET BA P(e)， 外 部 惩罚 函数 法 由 求解 如 下 一 系列 无 约束 
最 优化 问题 组 成 : WF =O, 1, 2, ---, 


(EP) min F(z, p*)=f(@) +e] Biimin[0, ro 
+ he) ge . (12.14) 


其 中 亚 是 一 严格 递减 的 正 数列 ， W 为 (EP*) 的 最 优 解 ， 构 造 
点 列 E) 在 ( 卫 ) 的 较为 温和 的 条 件 下 , 它 有 一 个 子 列 收敛 于 (了 ) 
的 一 个 最 优 解 . 

外部 惩罚 状 数 的 上 述 推导 能 够 推广 。 令 " 是 变量 pE 瑟 的 一 
个 连续 实 值 函 数 ， 使 得 站 > p?>0 BM (pe?) >r(p')>0, FF AX 
每 一 具有 性 质 
Lie {po} =0 (12.15) 


的 严格 递减 正 数 列 Lot}, 有 
lim {r()}= +o0, (12.16) 


令 3 也 是 满足 412.1L) 积 (12.12) KAE E E a, 
A6L 


r(e) E —4 SBE FB, 并 且 
(EP*) min F(a, p*)- f(@)-+r(p*)s(2) (412.17) 


是 相应 的 无 约束 最 优化 问题 。， 在 图 12.1 中 , 我 们 用 一 个 简单 的 情 
形 来 说 明 这 个 想法 , 其 中 能 行 集 立 是 实 轴 .上 的 闲 区 间 [e, bl. 


rip) s(x) 


er am a mm ine 


PARA Sh RE TT 

TERE m SPER AGTH BRA EY HE DY, 先 考虑 一 个 小 例题 ， 

i) 12.2.1 

Rf (oe) = (on RR) 的 极 小 值 点 ， 受 限制 于 约束 >l BË 
解 显然 是 w= 二 1， 以 a=2 构 成 形 如 (12.14) 的 增 广 目 标 函 数 , 这 样 
就 有 无 约束 最 优化 问题 


min F(a, p*)=(#)? + F[min(0, z—1)}?, (12.18) 
SHE M4 EH p> 0, MH PEON, 它 的 极 小 值 点 是 
oe 
g FFE (12.19) 


注意 ， 对 任何 o" >0, 这 个 点 关于 原来 的 问题 是 非 能 行 的 . 随 着 
{p'} 0, 点 ww” 从 能 行 集 外 部 趋 于 z*。 当然, 存 任 何 实 际 问 题 中 ， 
求 F(z,p") 的 无 约束 极 小 必须 采用 某 个 数值 算法 ， 如 在 前 几 章 中 
提出 的 算法 。 Il 

现在 叙述 并 证 明 外 部 惩罚 函数 法 的 某 些 收敛 性 结果 、 首 先 需 
要 | 
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3) 72 12.1 
设 五 由 (12.17) 给 出 ,并 令 
>o. (12.20) 
E Ee, p*) Ri F(a, p 分 别 在 2 Al oY RA EE R E 
的 极 小 值 ， 则 


P(g, > Flak, pz， (12.21) 
s(a"*) S3(gtt1*), (12.22) 
FS). (12.23) 

【证 明 】 AA r(e)s(a)>0, A r Ba ep 的 减少 而 增加 ,我 们 有 
Eat, pr+1) = f (a"+1*) tarp tt)s(attt*) (12 > 24) 
f (a) rlo swt) (12.25) 


=f (a) +r(p)s(a") = Fa, p*), (12.26) 
其 中 最 后 一 个 不 等 式 电 w”* Ce, p*) 达到 极 小 而 推出 ， 因 此 
(12.21) 成 立 。 联合 (12.25) 和 (12.26), 得 出 
F(a) Fr po) <f (2) +r(p*)s(a**"), (12.27) 
He" REX, 又 有 
Fal) rp sw) <f (a) + (pea), (12.28) 
措 最 后 两 个 不 等 式 相 加 ,我们 得 到 
r(p¥) [sa siaty] <r(p"**) eCa eat]. 
(12.29) 
FEA reS 不 等 式 (12.22) 成 立 ， 从 (12.22) 和 (12.27) 
FHE 
Sa) —f (a) >r(p*) Esla) sela), (12.30) 
从 而 (12.23) 成 立 ， | 
现在 , 我 们 能 证 明 外 部 惩 神 函数 法 的 基本 收敛 定理 . 
定理 12.2 
假设 问题 (P) 的 能 行 集 AX 非 空 , 并 存在 一 个 8 汪 0 使 得 集合 
X*— {ewe R, g(r) —e, t=], =, M; 
lalai se, 9=1,--, p} (12.31) 
REA, MRR PA k, Fie, p) TR 上 达到 它们 的 无 约束 
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BN. Be ET SH Hs RE WEEE A 
的 一 个 收敛 子 列 {w”*“}, 并且 任 何 这 样 的 收敛 子 列 的 极限 都 是 (P) 
的 最 优 解 . 

【证 明 】 由 引 理 12. F, p*) 是 一 个 递增 序列 。 WAX 
是 紧 致 的 且 是 连续 的 ， 所 以 至 少 存在 一 点 2*E XX, HS aK 
到 它 的 极 小 值 , 即 2” 是 CP) 的 最 优 解 .于 是 ,对 一 0, 1,，… 有 有 

FE) = fE) trp sleek (a™, p), (12.32) 

STF ALE Co, pe ER A, CRATERE 五 "( 参 见 [2] ). 
类 似 地 ,序列 {fCw*)} 是 递增 的 , 并 且 


F(a) <f (a) tr ss) = F(a, pr), (12.33) 

FA (12.32) 4 (12.33), 我 们 得 到 
fo) <F(a"), (12.34) 

SAID Lf ATR. A, 
lim {r(e =P, (12.85) 


由 (12.16) 推 出 
lim{s(@"")} 一 0. 《12.36) 


从 (12.11)，(12.12) 利 (12.836) 我 们 断定 ， 对 每 个 5>0, 存在 一 个 
自然 数 K(8), gx >K OA aM CX?) 于是， 对 充分 大 的 
R(s), MH k> Re) Ao 将 落 在 紧 致 集 X 中。 因此 存在 一 
AFFI RATER e°, 并 推 利 s(w?) = 0. GHEE XK, M 
a 的 最 优 性 , 我 们 得 到 

fv) SF). (12.87) 
现在 , 对 所 有 收敛 子 列 中 的 by, F 

F(a) Sf (a) +7(p™)s(ah) 


<f (o") trsa") = f(a"), (12.38) 
于 是 
lint f(e"*)} =F) f )， (12.39) 
由 (12.37) 和 (13.39), 我 们 最 终 得 到 
Fe) =f"), ; (12.40) 
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并 且 ?必定 是 (P) 的 一 个 解 。 了 

Fangwill’™ 研究 了 使 了 (gm, p') 达 到 它 的 极 小 信 的 条 件 ,这 是 
用 于 收敛 性 定理 的 一 种 假定 。 他 找到 了 两 个 这 样 的 条 件 ， 第 一 个 
说 , 了 是 一 个 每 当 lz2j 一 十 ce 时 必 有 je) 一 十 co 的 函数 ; 另 一 个 
包含 着 同样 推论 的 条 件 是 ， 对 某 个 s>0, X RRA, HA 
了 (wz, p) 是 4 的 是 函数 .这 个 条 件 无 疑 可 减弱 到 广义 同 函 数 类 (第 
6 章 )， 注 意 , 收敛 性 定理 涉及 到 (P) 的 整体 最 优 解 , 这 样 它 似乎 是 
很 强 的 结果 . 然而 ， 那 里 假定 了 对 每 个 X， 我 们 求 得 无 约 东 规划 
(EPOR RRR, 如 辐 我 们 在 前 几 章 所 看 到 , 那 是 一 个 相当 困 
难 的 任务 .基于 这 个 理由 , 这 个 方法 主要 适用 于 凸 规划 (或 它们 的 
推广 ), 以 及 其 增 广 目标 函数 至 少 是 强 拟 凸 的 规划 ， 无 约束 规划 
(EP*) 中 整体 极 小 的 存在 性 问题 已 由 EYans、Could"™ 研究 过 , 他 
们 导出 了 存在 这 种 极 值 的 充 要 条 件 . RR, 这 种 条 件 的 检验 对 
大 多 数 问题 难以 实现 . 

用 外 部 惩罚 函数 算法 收敛 于 非 凸 规划 的 局 部 极 小 ， 这 结果 也 
能 在 赂 有 不 同 的 假定 下 得 到 ， 有 兴趣 的 读者 可 参考 Fico, 
MoCormick2 5 ， 这 里 仅 提 及 他 们 的 主要 结果 . 记 XCAR) 中 
的 点 集 4 是 使 且 标 函数 了 取 极 小 值 o” 的 局 部 极 小 值 点 的 集合 ， 
设 4 是 满足 一 个 温和 指正 则 性 条 件 的 非 空 紧 致 集 , 则 存在 一 个 紧 
致 集 S, 使 4 RE S ANR, 而且, 对 充分 大 的 k, (EF*) 的 无 约束 
极 小 值 是 在 后 的 内 部 达到 .此 外 ， 


lim {f(a"*)} =o, (12.41) 


HHA E Pe TA g AROR ABE 4 中. 

最 后 ， 一 些 有 效 无 约束 数值 方法 的 成 功 应 用 也 要 求 连续 可 微 
性 ,这 本 身 就 对 某 些 惩罚 函数 据 出 了 问题 , 即使 在 (P) 中 出 现 的 所 
有 函数 是 连续 可 微 的 也 如 此 . 这 个 阿 题 在 本 音 后 面 讨论 .后面 要 
包含 的 另 一 方面 内 容 是 ， 对 于 满足 强 相 容 性 或 Slator 条 件 (参看 
4.5 节 ) 的 凸 规划 , 单个 无 约束 极 小 化 能 代替 一 系列 极 小 化 而 获得 
RRI oe eI | 
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12.2 AMBMAR 


这 里 , 不 等 式 约 束 的 非 线 性 规划 , 是 通过 一 系列 无 约束 最 优化 
问题 来 求解 的 ,它们 的 极 小 值 点 严格 地 满足 约束 , 即 落 在 能 行 集 的 
内 部 我们 将 看 到 , 当 从 内 部 穿越 能 行 集 的 边界 时 , “障碍 函数 ”加 
以 元 限 大 值 的 惩罚 , 这 种 障碍 重 数 的 建立 , 保证 了 所 求 得 的 无 约束 
极 小 值 点 始终 逗留 在 能 行 集 的 内 部 . 因为 算法 要 求 能 行 集 内 部 非 
空 ,所 以 等 式 约束 问题 不 能 用 下 面 描述 的 方法 处 理 ， 但 是 , 另 一 些 
内 部 型 惩罚 函数 法 已 经 导出 ， 它 们 能 够 求解 带 有 等 式 约束 的 如 上 
节 的 规划 ( 世 ) 那 样 的 问题 , 这 种 方法 将 在 后 面 提 有 及， 

所 以 ,考虑 非 线 性 规划 
(PD min f (a) (12.42) 
受 限制 于 约束 

gla) 0 i=l, «+, m, (12.43) 
HARE, BRS, go s gm 是 P CHEREN. BX 表示 规 
划 (PI) 的 能 行 集 , BPE (12.430 wE R WRR. > Xo BRK 
的 上 内部， 假设 成 立 关于 规划 (PI) 的 下 列 正则 性 条 件 : 

1. RX RAM, X° ska, BX BX HA: 

2. 存在 一 个 具有 了 (289) =O NR CX, 使 得 集合 SCf, a) 
OX 是 紧 致 的 , 其 中 SCS, aE S E L REE. 

FET AMAR, Cec CR PRAM, HAG 
X°WE- REE KE ie} ER PAR I 边界 上 菜 个 区 
的 任何 点 列 , 亦 即 


ICE) = {4:9;(@) =0} 4G, (12.44) 
ny 
lim {g(2")} = +00, (12.45) 
AS tz: pCR WRAAK, 使 得 
ei >pt>O Bim >to, (12.46) 


lim {p°} =0 统 涵 lim {f(p')} =0, (12.47} 
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函数 tp) q(x) HA AE TBR, oh RS A. 

内 部 惩罚 函数 法 可 叙述 如 下 ， 对 于 大 一 0, 1, ERG AE 
一 系列 无 约束 最 优化 问题 (IP*) ep RAR DA BR PAH, CIP") 
由 下 式 给 出 ， 
dP") min G(s, p”) =f (w) Htl gw). (12.48) 


AMEX 是 出 发 点 ， 并 对 p? 指定 一 个 正 值 ， 从 ?出 发 , 用 某 个 
无 约束 极 小 化 方法 解 问题 (IP?), 并 记 ”是 (I2?) 的 一 个 解 ， 可 预 
eX. We Bot, Mah 出 发 求解 问题 (IP'), id CIP*) 
最 优 解 为 z*， 用 这 种 方式 ,对 一 个 严格 递减 序列 p", DEA 
出 发 继续 求解 (IP*)， 在 已 叙述 过 的 关于 (PI) 的 假定 下 , 这 个 方法 
能 找到 一 个 最 优 解 , 我 们 将 在 后 面子 以 证 明 . 


MT ew t Ale, 最 通常 的 选择 是 
t.(p) =p, (12.49) 
talp) = (p)’, (12.50) 
g(a) = —D log g(x), (12.51) 
-5 1 
galw) p> g(a)’ (12.52) 
-$ 1 9 ge 
galw) ae Ove (12.83) 
m 1 
qale) =2 "axl, awl” (12.54) 
5j 12.2.1 
考虑 下 列 单 变量 的 小 型 问题 : 
min f(«) =< @ (12.55) 
受 限 制 于 
g(a) =a—1>0, (12.56) 


显然 最 优 解 在 字 = 1 并 且 jz") 一 也. 假设 对 于 障碍 函数 ,我 们 选 


FF LAA te A a2, BA, 
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Gn, pb e+ (a1), (12.57) 
读者 容易 验证 EAR BR SR 


Vi 一 二 2 p*, (12.58) 

: 1 ie 

WN 2. 
fia} 可 ty (12.59) 


这 样 ,最 优 的 无 约束 极 小 值 点 全 在 X 中 ， 而 且 随 着 p* 值 的 相继 
BST AF o. Ta BR IL pr* 值 的 无 约束 问题 了 示 明 在 图 
42.2 中 .了 


12.2 内 部 惩罚 法 


为 了 给 出 这 个 方法 的 一 个 简单 的 收 伍 性 证 明 ， 假 定 所 用 的 函 
Beg Boe XW HIE, MBE Pe ACHE HA qi 可 能 不 成 立 ， 
SATE ELT WE BA i) FA SC SS FT R PBR EE 

定理 12.3 

假定 上 述 的 关于 规划 (PI) 的 正则 性 条 件 (1) 和 (2) 满 足 ， 而 且 
在 增 广 目标 函数 中 用 到 的 各 个 函数 9 当 wE 邓 ? 时 均 为 正 ， 假 设 
对 所 有 k, Ge, PME X 中 达到 它 的 无 约束 极 小 值 。 如 果 {p 对 是 
一 收敛 于 零 的 严格 递减 正 数列 , 则 存在 (IE 的 最 优 解 的 收敛 子 列 
{o*"}, 并 且 任 何 这 样 的 收敛 子 列 的 极限 都 是 (PI7 的 最 优 解 . 

DEMI 由 条 件 (2), 集 合 SCf, OX 是 非 空 的 紧 致 的 , A 
MERAM PREP A CCX ANCEX LME). > 
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Ga, p*) ESR TP") PR BR IMA. 则 由 (12.46) 
#0 (12.48), 

Gi, Gl", pt) > ). (12.60) 
因为 Ee, p>} LS TARR, CRATERE GS 
fo"), SF). 由 条 件 (了 和 了 的 连续 性 ,我 们 断定 , 存在 
一 个 数 3>0 MERI HR Nilo"), 使 得 XO N s(x") 40, 旦 对 一 切 
CEN, (a*) Ff 


f(a) <@—-L10-f@')1. (12.61) 


FE XON Noa" HET Re. MAC12 46) A247) 4, FE 
个 自然 数 五, 使 得 对 每 个 >K, A 


aE) Â- N. (12.62) 
于 是 ,对 >K A 
EE, FEHCE- G-a], 
(12.63) 


Ae, O MBAS F. Batt, @=f(c*), 
HAH), 存在 一 个 R, 使 得 对 所 有 PSR, Ho 落 在 一 个 
RARE, MARAE FF {oS MP RIECK, 假设 到 不 是 
CPI) ARR, WISSE), LIBR FILS (e") +t") g(a") 
—f(a*) ERATE, RG 
lim {G(a", p*)} = f(a") (12.64) 
FE, 所 以 必 有 了 (32) 一 了 (we"), 从 耐 入 是 (PT) 的 最 优 解 .了 
在 这 个 定理 中 ， 最 重要 的 假定 或 许 是 GC, p*) X 中 达到 
它们 的 极 小 值 ,或 等 价 地 说 , 问题 (IP”) 在 中? 中 有 最 优 解 ， 现 在 给 
出 确保 这 些 最 优 值 存在 的 一 个 充分 条 件 . 
,如果 正则 性 条 件 CL) RE, SEX 的 内 部 五 " 由 下 式 给 出 : 
X°= {e:2€ R", gw) >0, t=1, =, m} 4G, (12.65) 
则 规划 (PI) 定 义 为 强 相 容 的 ， 
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于 是 我 们 有 下 述 引 理 . 

引 理 12.4 

假定 X CR BEM, 并且 规划 (PT) 是 强 相 容 的 , 则 Gir, 
ede X. 中 达到 它们 前 无 约束 极 小 值 . 


【证 明 】 令 
inf GG, p) =a, (12.66) 
那 示 由 下 确 界 的 定义 ,存在 点 oh CX? BY fe}, 使 得 
lim {G(2', p)} <a, (12.67) 
AA ie} Ose RRR X p, CARAFA}, MT 
lim {a} ~8E X. (12.68) 


RE TEX, WA, h G MAE, HKG, DREF 
FUR T a, 我 们 有 
Hm i@(2", p)} ~Hm{f (o)} + lim{t(p)g(e")} (12.69) 


jbo 


=f(£)+it(p)g(£) =a, (12.70) 
因此 
G(s, p) =min G(%, p). (12.71) 


MEGS X?. WAS IE X 的 边界 上 ， 由 (12.45) 和 

(12.69), 并 由 于 区 p) 为 正 , 我 们 得 到 
inf @(@, p)—f(@) +lim{t(p)g(2")}=+o2, (12.72) 

这 是 一 个 矛盾 , 从 而 人 E XY 

用 内 部 惩罚 法 收敛 到 非 凸 规划 的 局 部 极 小 值 点 ， 这 个 结果 在 
较 上 面 绊 一 点 的 假定 下 也 能 证 明 (参见 Fiecoo, McCormick), 

内 部 惩罚 法 是 以 Carroll 提出 的 一 个 想法 为 基础 的 , 他 把 一 
个 约束 非 线性 规划 变换 为 一 系列 无 约束 极 小 化 问题 ， 他 所 用 的 了 
Bet, A go 分 别 由 (12.49) 和 (12.52) 给 出 ， Carroll 的 想法 随后 被 
Fiacco, MoCormick™ 2") aag He, 作 了 彻底 的 研究 ,他们 发 展 
了 序列 无 约束 极 小 化 方法 (SUMT)， 这 或 许 是 至 今 最 著名 的 惩罚 
函数 法 . 
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在 规划 (REI) 是 标准 凸 规划 渡 目 户 91,…, 9m 蚌 连续 可 微 的 
情况 下 , SUMT 方法 具有 某 些 有 趣 的 原 有 -对 人 篇 特 征 ， 考察 UP), 
即 第 次 无 约 东 极 小 化 问题 : 

1 
( 


(IP*) min Ga, p*)=f (a) -+p* > GE (12.73) 
E o CX HE CTP IAA Bh, 则 
ke KN ka ee VG (a) = f 
VG (a > P d= Vila ) P = TCD) Lee (12.74) 
RCP) ft) Lagrange 式 


La, D= fa) -E agile), (12.75) 
建议 定义 Lagrange RFH 
k p“ aies 12. 
BU ee tae 
外 的 这 种 选择 ,使 我 们 有 
VG (a, p) = Vite, A) =0, (12.77) 
注意 , BM AiO, 但 因为 
k KAN  ， p j, = aes Y 
Mai(@ ary i=l, s M, (12.78) 


定理 4.41 中 叙述 的 关于 凸 规划 的 Kohn-Tuoker 必要 条 件 ， 对 于 
(PD) 在 点 2 并 不 成 立 ， 然 而 能 够 证 明 ， HR A= (A, …, ADE 
于 (PI) 的 对 侦 规划 是 能 行 的 ， 其 中 AE 由 (12.76) 定 义 ， 这 个 对 侦 
规划 (参见 5.4 节 ) 由 下 式 给 出 : 


(DPI) max {int [F (e) —Šingsa) |} = max {inf (a, NO}, 


(12.79) 
Ha f APS HES g 的 四 性 及 A 的 定义 各 (12.77), 可 推出 
Liat, NM) = int Lle, A), (12.80) 


并 且 往 对 于 (DETD 是 能 行 的 . 所 以 ,由 定理 器.3 值 DG, Yb 

规划 (PD 中 了 的 极 小 值 的 一 个 下 界 、 MA oh 趋 于 (PD 的 最 优 解 

a, fe") FL, N) 之 差 越 来 越 小 直至 二 者 达到 相等 。 这样， 
i7t 


IP”) 的 每 一 个 成 功 的 解 ， 也 提供 了 Jf(w*) 离 开 极 小 什 有 多 远 的 - 
全 估计。 这 个 信息 对 于 终止 无 约束 极 小 序列 可 能 是 有 用 的 
正如 已 注意 到 的 ， 等 式 约束 非 线性 规划 不 能 用 内 部 惩罚 法 求 
解 ， 然 而 ,我 们 能 利 骨 混合 惩罚 法 , 去 求解 如 (12.3) 至 (12.B) 给 出 
的 等 式 -不 等 式 约束 问题 ， 增 广 目标 函数 定义 为 
Hw, p, =f æ) Hæ) trs), (12.81) 
CH Be Me g, r 和 s AETR AR” AY SDR AE YT BL BE 
法 那样 定义 , 不 过 9(z) 和 s《w) 分 别 仅 应 用 于 不 等 式 约束 和 等 式 约 
来 ， 例 如 , 我 们 可 到 
Hlw, p, W) =f (2) —p Slog n(x) += Shia). 
(12.82) 
混合 惩罚 法 由 解 一 系列 无 约束 极 小 化 问题 组 成 ， 
(MP*) min Ha, pë, n) =f (0) HEC) tros). 
(12.83) 
在 适当 的 假定 下 , 序列 { 吾 (or p5 0) SWF ORRE S”), 
并 且 {zey 的 子 序列 收敛 于 e, 参见 [13, 15), 


12.3 无 参数 惩罚 法 


实现 竺 加 函数 法 的 一 个 尚未 解决 的 问题 涉及 参数 p 的 选择 . 
必须 决定 参数 的 初始 值 op", 并 决定 一 个 修改 p 值 的 规则 , 以 便 得 到 
一 个 单调 递减 趋 于 零 的 序列 、 为 避免 选择 参数 时 左右 为 难 , 可 异 
助 于 修改 撼 神 隐 数 来 合 参 数 自动 选取 ,或 等 价 地 说 ,把 方法 修改 成 
不 需要 参数 的 . 下 面 就 要 看 到 ， 外 部 惩罚 法 和 内 部 惩罚 法 二 者 都 
能 作 这 样 的 修改 ， 先 从 外 部 惩罚 法 开始 . + o* 是 自 标 函数 了 在 规 
划 ( 卫 ) 的 由 (12.6) 给 出 的 能 行 集 全 上 的 整体 极 小 值 点 ,假设 我 们 
ATR SHAS 的 下 办 的 - -Afir o, 即 

a f(a"), (12.84) 
RAB RIRE AARRE A, 


L738 


(EPF’) min F(z, wo) 


= Wo —F(e)) HICA) H CE), (12.85) 


Hp os Al E Sh 55 ba 12.7) FCA2.8) A FD. 8B) HO 
fe. 车 (P) 的 最 优 解 z* 恰好 是 了 在 Br 上 的 无 约束 极 小 值 点 ， 则 
ama", AM RIA IE. AEM, FEF 12.1 节 中 叙述 的 正 出 
性 条 件 满足 , 则 
wf (a) < f(a"), (12.86) 
并 按 下 述 方式 进行 . 
令 


(EPF*) min F(a, w*) 


Po fle) + Sb @)) HEEE), (12.87) 


rR {o SE ee, EAR o hw? 及 (EPE*-!) 的 最 
优 解 算 出 ， 对 天 = 二 2, =, 求解 (12.87), 即 12.1 节 中 那样 ， Ri 
得 到 一 个 点 列 ie}, PARKA PRR FH. 进一步 
的 细节 见 [29,，33, 36), 

考 典 由 (12.42) 和 (12.43) 纵 出 的 问题 (PDD， 以 及 对 内 部 惩 宣 
法 之 族 倪 述 的 正则 性 条 件 ， 无 参数 的 内 部 惩罚 法 建 基 于 对 到 = 二， 
2，… 求解 如 下 一 系列 无 约束 最 优化 问题 ; 

ja 1 m1 
人 
(12.88) 

Hp o” 是 在 及 ?中 的 一 个 任意 点 ,w** 是 (IPF*!) 的 最 优 解 ， 这 
个 方法 称 为 无 参数 SUMT”, 在 这 方法 中 , AREN AE SUMT 已 
作 了 修改 ， 取 时 如 (12. 引 )， 我 们 能 构造 另 一 种 无 参数 的 内 部 惩 
罚 法 , 那 是 基于 求解 一 系列 问题 


min Ĝi (æ, a) = —logt f(a *)— flay) — 3} tog g2), 
(12.89) 
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它 等 价 于 求解 
man Tf (eo = f(a) f} gala), (12.90) 


其 中 必 eV Lb, ROK, 称 为 中 心 方法 , 由 Huard?” g 
立 。 再 者 , 在 类 似 于 12.2 节 氢 述 的 条 件 下 , CER AB Ee 
AT (POA RR. 能 够 证 明 ,， 万 参数 法 实际 上 等 价 于 带 有 特定 
SSPE ET a. 例如 , SUMT 和 它 的 无 参数 形式 之 
[a] OSE AY LA a aR, 车 w* 是 (12.88) 给 出 的 JP) 的 
解 ,只 要 (PD) 的 一 些 正则 性 条 件 得 到 满足 则 2™* 也 是 由 (12.73) 
给 出 的 UP 的 解 ,其 中 取 

pr [fm f(a, (12.91) 
类 似 的 关系 也 能 对 其 他 无 参数 方法 导出 。Lootsma ” 研究 了 这 些 
方法 的 收敛 速率 ， 发 现 它 们 较 之 以 前 讨论 的 外 部 和 内 部 惩罚 算法 
没有 特别 的 好 处 . 事实 上 , 无 参数 法 的 收敛 一 般 很 慢 , 其 中 大 多 数 
是 线性 收敛 速率 . 为 了 改进 收敛 速率 , 提出 了 儿 种 修改 , 比如 给 予 
(12.87) 右 边 第 一 项 以 一 个 很 小 的 权 ， 这 项 包含 且 标 函数 . 疡 参见 
[29, 36], 


i 12.8.1 
我 们 用 无 参数 SUMT 去 解 例 12.2.1 中 提出 的 问题 ROGA 
min f(w)=4 s (12.92) 
受 限 制 于 
g(a) =0—1»0. (12.93) 


ER k KEP, 我 们 求解 无 约束 最 优化 问题 
min {fw FD) a (12.94) 
容易 证 明 , 最 优 解 2*" 由 下 式 给 出 ， 


ls os 1+- (at) 2) 
1+(A/V2) 


(12.95) 
He =i, 我 们 得 到 


ot 1 
pi — g" 1+ way (12 .96) 


I£ 


愉 而 收敛 速率 是 线性 的 .有 趣 的 是 注意 到 ,对 于 例 12.2.1 oA 
BY AEB ARTY IA, A 


a Ae (12.97) 
因此 ,采用 适当 选择 的 (0), 收敛 能 加 速 ， 了 


12.4 恰当 惩罚 函数 


在 至 今 所 讨论 的 一 切 惩罚 方法 中 ， 最 优 解 是 通过 求解 一 系列 
光 约 束 最 优化 问题 得 到 的 ， 自 然 要 问 ， 约 束 最 优化 问题 能 否 通 过 
进行 单个 无 约束 最 优化 就 解决 ， 确实 , 给 定 了 一 个 约束 非 线性 规 
划 后 ， 若 能 找到 一 个 实 函 数 ， 使 它 的 无 约束 极 小 就 是 约束 问题 的 
解 , 那 基 很 有 益处 的 . 其 结 举 是 , 在 一 定 的 场合 寻找 这 禅 的 函数 是 
可 能 的 ,并 且 它 们 与 本 章 已 讨论 的 惩罚 秒 数 有 关 . 

给 定 了 一 个 非 组 性 规划 , 例如 雪 .1 节 中 的 规划 全), 假设 存在 
一 个 实 函 数 , 共有 这 样 的 性 质 , 即 它 的 单个 无 约束 极 小 产生 CP) 的 
最 优 解 。 Witt RR RR RE ERM, 它们 
带 有 适当 选择 的 参数 , MORZABRA BAAR. 

处 理 和 恰当 惩 缠 函数 的 最 早 著作 之 一 是 Zangwill [02]. 他 指出 : 
对 于 一 个 满足 强 相 容 条 件 的 凸 规划 , 存在 一 个 恰当 惩罚 函数 , 取 包 
食 一 个 充分 小 参数 p 的 外 部 延 广 函数 的 形式 ， 这 里 我 们 在 第 6 章 
广义 西 性 的 观点 下 来 推广 Zangwill 的 结果 . 

考虑 下 列 广义 凸 规划 , 其 中 使 用 了 与 第 6 章 相 适 应 的 记号 (对 
于 不 熟悉 在 那里 为 人 六, 风 )- 西 攻 数 引进 的 特殊 记号 的 读者 , 可 把 它 
们 理解 为 通常 的 代数 运算 ,然后 把 这 些 结 果 用 于 普通 凸 规划 ?， 令 
(GCP) min f(g) (12.98) 
受 限 制 于 

gpl t=1, ---, m, (12.99) 
Boh f E(k, &)- RR, neh, 6)-M eR, PELE—-PMN 
连通 集 SCR" E, MAI, > XCS Bi BA12.99)H rice BR 
的 集合 , 并 记 LOCK 是 集合 


key 
“I 
t 


X°= įr, eC RY, g(a) >0,, i=1, =, (12.100) 
假定 X° 非 空 , AFEA 2 CX 是 (GCP) 的 最 优 解 ， 定 


义 
P(w, p)=f(«)(~ -IŽE [ġja TOJ (12.101) 

其 中 
af —]b—a[+]((~1){-1b)=$[p(a)—(B)], (12.102) 
[Slat lal]. [+ an. (12.108) 


车 了 是 凸 的 ,9 是 凸 的 ,我 从 得 到 
P(a, p) ~f(@)— 23 min (0, ge)). (42.104) 

注意 , Pa, p) 的 这 个 形式 等 价 于 wa= 芋 时 出 (12. 人 定义 的 出. 

现在 , 我 们 叙述 并 证 明 下 面 的 定理 ， 

定理 12.6 

FEE p*> 0, 使 得 对 所 有 p’>p>0, Plax, p) 的 无 约束 极 
人 小 值 点 与 (GCP) 的 最 优 解 x* 重合 . 

GEI] > EX, EM 


 a=p(min(g(ê)))>0, (12.105) 
B=4f (ê) -ef (2) >0. (12.108) 
4 ; 
E sy (12.107) 
p a 


其 中 se>0 是 任意 的 . 
其 次 , 取 任 意 点 wESCP 使 w 习 .我 们 将 证 明 , 对 每 个 
FFE CCX, WE 
P(x, p*)<P(w, p°). (12.108) 
因为 x EEIT, S= Pa, p). 而 且 , 既然 按 假设 (GCP) 的 最 
优 解 能 达到 ，P(z, p") 也 必 在 (GCP) 的 一 个 最 优点 oC X 处 达到 
WME. O e EE wR hew 上 前 一 点 ， 即 E~ 2s,w(8)， 
0<ĝ<1, eB 
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(a) = {irga = 05, hl, e, mY. (12.109) 
RAZ, oE X WARE. o 
tlw) = 
显然 , t(2)= P(T, p") AO on 
C Si lg) i i Jmin(O,, ge(w)) 


(12.110) 


JER) 


>[S}minco,, g(w)), (12.111) 


因此 ， 

1 J l9keo)} (12.112) 

<f(w) bef min(0,, 9(w))}= Pw, p°), 
(12.118) 

我 们 通过 指出 TE) <r(w) 来 完成 证 明 ， 首 先 ,我 们 有 

¥(@)=f@(-JFELL- LB Jea) (12.114) 
SSEL- EEEE {min g(8)} (12.115) 
~f(#)(—]é- ets pomin g())} (412.116) 
=F L-IP B+ e) (12.117) 
= bf la") — 8) <f (E) = (5). (12.118) 


其 次 ,因为 是 (包罗 )- 凸 函数 , 且 对 某 个 0<5 一 1 成 立 了 = he, wð), 
故 推出 
eE- ETE f+] OL] 7 (w)) (12.119) 
< Ere), (42.120) 
从 而 . 
slæ) = P(x, p")<1(w)<P(w, p), (12.121) 
因此 (过 .108) 成 立 ，3 
虽然 临界 参数 值 p* 的 存在 性 已 在 定理 12.5 中 证 实 ， 但 在 实 
WE A p” 依赖 于 fCw*)， 记 以 只 有 在 问题 本 身 解 出 后 p' 才能 
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计算 ， 然 而, HA fo) PABA, 如 在 许多 具体 情况 下 那样 ， 
我 们 就 能 够 估计 et. Sf RAAT PR EL 


PB'= bf (@) -pf >R, (12.122) 
a cata a (12,123) 
p a p 
则 p 能 用 来 代替 恰当 惩罚 孜 数 中 的 六 
例 12.4.1 
下 面 的 简单 例子 说 明了 恰当 惩罚 函数 的 思想 ， 
min f(2) =g"? (12.124) 
受 限制 于 
gia) =ponl, (12.125) 


从 第 6 章 和 第 7 章 得 知 , 了 和 9 分 别 是 (log, log)— 1h ph HAN Clog, 
log)- 四 函数 ， 换 多 话说 , 我 们 有 一 个 通常 的 几何 规划 问题 . 

能 行 集 和 目标 函数 在 图 12.38 中 示 出 显然， 最 优 解 是 在 
2 一 和 我 们 通过 寻找 临界 参数 P 《利用 对 ot 准确 位 置 的 知识 ) 着 
Fw SBN RR, Mem de, 这 个 点 是 能 行 的 。 由 (12.105) 至 


(12.107), 364 s=}, 得 到 


a=loge=1, (12.126) 
B= log(4e)"? —log(4)¥*~ 5, (12.127) 
> si (12.128) 
Six) 
2 


4 x 
图 恕 .3 ”约束 最 优化 问题 
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因此 由 (12.101)， 


on 1 , x 
AY os r2 Š see 9 
P(w, p= æE] pr [+ jmin (4, 全 (12.129) 
ud i T 
=oxp| 5 log a~min(0, log 外 (12.180) 
从 而 ， 
es axa, 
Ple, p*)=4 (a)? (12 131) 
(a), e4. 


这 个 函数 示 明 在 图 12.4 中 ， 这 个 惩罚 函数 的 无 约束 极 小 值 点 是 
o*= 4, 所 以 是 一 个 恰当 惩罚 函数 ， 注 意 , PCw, p”) 在 wv 不 可 微 ,这 
个 计算 上 不 希望 有 的 特性 ， 是 某 些 恰当 惩罚 函数 构造 中 所 轿 有 
的 、 l 


2.4 AEri 


Pietrzykowski4® 利用 (12.104) 给 出 的 恰当 惩罚 函数 Pis, 
5)， 求 得 了 把 非 凸 规划 的 约束 局 部 极 小 与 Ple, p) 的 无 约 东 极 小 
联系 起 来 的 一 些 结果 Zangwill-Pietrzykowski 恰当 惩罚 函数 法 
的 主要 缺陷 之 一 ， 如 同 刚 才 例 中 所 见 的 ， 是 Plz, po) 在 一 个 使 
了 I 人 多) 天 一 一 即 对 某 个 去 成立 gil) 一 0 HA DER 上 不 可 微 ， 
即使 了 和 % 古 连续 可 微 也 一 样 .因此 , 象 第 芭 章 和 第 蔚 章 中 那些 
有 效 的 无 约束 极 小 化 方法 就 不 能 直接 应 用 ， 对 于 这 类 分 片 可 微 乱 
罚 函 数 , 专门 的 最 优化 方法 已 由 Conn!” 利 Conn-Pietrzykowski®™ 
提出 . 

在 Evans, Could, Tolle?” 的 新 近 工 作 中 ,对 一 大 类 分 片 可 
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ABH, 建立 了 一 个 十 分 一 般 的 理论 。 他 们 的 理论 也 可 以 看 作 是 
联系 惩罚 函数 与 Lagrange 式 的 环节 (这 个 关系 将 在 下 一 节 更 详细 
地 讨论 )， MMPS ASR AK g(a) >0, Evans, Couid 和 
Tolle 定义 数 B 和 向 量 和 E 4 的 一 个 乘 子 函数 yo 其 中 4 是 R H 
FR, My HERE RU{-o}, Be, 对 每 个 加 定 的 
AE R*, yt 是 B 的 连续 非 减 通 数 ， 然 后， 定义 扩充 Lagrange 式 
为 


P(a, 2)=f(@)- 3 wl ge), 0), (12.132) 
它 联 系 着 不 等 式 约束 的 非 线性 规划 ， 例 如 (12.42) 和 (12.48) 给 出 
的 就 划 (PJ)， 与 (PL) 相 联系 的 通常 的 Lagrange 式 就 成 为 一 个 特 
丈 情形 , HERE b= a, A= {AAE R”, 150} HL 
NEn =A, i=l, © m, (12.133) 
于 是 ， 
Pla, 1) = f(a) — Sage), (12.184) 


它 就 是 在 第 3 章 中 引进 的 Lagrange 式 、 实 际 上 ,对 于 第 4 章 定义 
的 满足 强 相 容 条 件 (Slater 条 件 ) 的 凸 规 划 CCP), Lagrange 式 
Lle, *) 是 一 个 恰当 惩 昼 函数 。 那 就 是 说 , 若 “ 最 优 ”Lagrange Æ 
FHM 是 已 知 的 , 则 如 辣 定理 4. 和 所 证 明 的 , Le, 小 ) 的 无 约 
来 极 小 值 点 与 CP) 的 约束 最 优 解 一 致 、 (12.132) 的 另 一 个 特殊 
HA, M k=l A= {ARER AHO 


A 
N 0 
yl Bs, n-d B? eae i=1, ++, m, (12.135) 
一 59， &,<9, 
因此 ， 
are 
1 
P(e, af Ora mo TER (12.136) 
+o, we X, 


其 中 与 前 面 一 样 是 (PI) 的 能 行 集 . 出 现在 (12.186) 中 的 通 数 是 
SUMT 方法 中 前 内 部 惩罚 函数 ， 并 且 是 由 Gould23 研究 的 “内 部 
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-外 部 ”类 惩罚 函数 的 -- 员 ， 最 后 , 令 %=1 和 4= {AcE R, 
A>O}, FEX 

yf, )=Amin(0, B), t=1, +0, m, (12.187) 
我 们 得 到 


P(x, )=f(w)—A > min[0, 9(@)1, (12.188) 


它 就 是 上 面谈 及 的 关于 凸 规划 的 Zangwill 恰当 惩罚 函数 ， 
在 以 下 的 讨论 中 ,假定 对 每 个 XE 4 有 
YO, A)=0, @=1, +, m, (12.139) 
注意 ， 这 个 条 件 排除 (12.185) 作 为 乘 子 函数 的 特殊 情形 . 现在 我 
们 能 够 用 扩充 Lagrange 式 来 定义 恰当 惩罚 函数 ,我 们 说 , P, A) 
是 下 述 规划 的 一 个 恰当 惩罚 范 数 : 


(PI) min f(a) (12.140) 
受 限 制 于 
ga) >0, i=l, =, m, (12.141) 
MEFE A EA, W19 
min Pl%, A") =f (2°), (12.142) 


其 中 和 是 (PIT) 的 最 优 解 . 因为 % 对 每 个 固定 的 是非 减 的 ， 从 
(12.139) 得 出 ,对 每 个 满足 (12.141) 的 w€E 刀 ,成 立 


> yilgile), MN) SO, (12.143) 
(Bk o" AE CPT K, WU 
Pea, I) =f) É E), NSE) = min Ple, A"), 
(12.144) 


RRE, « 是 Pæ, MN TRARRMAR. AZ, OSCR Bi 
足 (12.141), HARRIE ATE A RE 


f@=PE, N) 一 min P(e, a), (12.145) 
则 对 每 个 能 行 点 w， 
f(B)<Pla, rfe. (12.146) 
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He ih, © CPT) OB A. 

Evans, Gould 和 Tolle” Boe eH PRN RFT RH, OT 
ER TR. TERY SA g 的 某 种 温和 的 假定 下 ， 规 
划 (CPD 的 最 优 解 集 合 , 和 和 充分 大 时 相应 的 恰当 惩罚 两 数 PC, A) 
的 整体 极 小 解 集 合 相 同 ， 例 如 ,一 个 这 样 的 乘 子 函数 是 

¥( Bs A) =min (0, e*—1), 一， m, (12.147) 
FH AC A= {ALE R, A>O}, MITT FE Lagrange 式 为 
Pla, =f (aw) -$ min (0, gx) — 1). (12.148) 


[1 中 最 重要 的 结果 , 是 用 相应 的 扩充 Lagrange REAR 
极 小 刻 划 CPL) 的 最 优 解 的 特征 定理 . 因为 这 些 Lagrange 式 只 是 
分 片 可 微 的 , 这 种 类 型 的 恰当 短 罚 函数 方法 的 有 用 性 仍 值 得 怀疑 . 
到 现在 为 止 ， 我 们 还 没有 求 不 可 微 函 数 极 小 值 的 行 之 有 效 的 数值 
TE. AE, 我 们 离开 这 主题 ， 以 讨论 让 etoher 的 恰当 惩罚 郴 数 
法 作为 结束 ， 其 中 的 惩罚 浮 数 对 于 有 效 地 应用 梯度 型 无 约束 拟 小 
化 算法 而 言 , 是 足够 光滑 的 . 

在 一 系列 的 著作 中 ，Fetehernt W 及 Pletcher-Lil™ 首次 导 
出 了 一 种 优美 的 方法 ， 来 对 只 含 等 式 约束 的 非 线性 规划 定义 可 微 
TS RT RK. PAIK MH Fletcher 扩充 到 不 等 式 约 束 问 
题 “， 我 们 从 等 式 约 束 傅 况 着 手 来 讲述 Fletcher WH. Be 
规划 
(PE) min f(s) (12.149) 
受 限 制 于 

hm) 一 0， j=1, =, x, (12.150) 

Kp fila, ho Eec EZRA AHS A 
To= fh, ++, DE, SRP AE g 个 元 素 的 子 集 ICS, 我 们 用 下 式 
规定 在 每 个 wE BRB" 上 的 %xg EN, 


Nala) = [Vhs), GE Fel. (12.151) 
No RUKI E ARLE, 它 定义 为 
Ng (a) = (NIND NG, (12.152) 


152 


为 了 表达 简 滞 ,在 记号 中 对 2 的 明 吕 依赖 省 略 了 ,又 定义 投影 矩阵 
了 a 为 
B= NoNt = (NONE, (12.153) 
它 把 向 量 投影 到 出 Vin Edo 张 成 的 子 空间 中 , ARE 
阵 Pa 为 
PP,= 工 -五 ， (12.154) 
Hop I ERME, EE Ps 把 向 量 投 影 到 相 切 于 由 g PAR OC 
形成 的 流 形 上 ， 容 易 理解 PMP who WR. KERB 
阵 的 进一步 细节 在 13.2 节 中 给 出 . 
Fletcher 给 规划 (PE) 找 到 了 整个 一 类 恰当 息 罚 函数 , 其 代表 
性 的 一 个 由 下 式 给 出 : 
p(w) = f(a) — (h(a) )*NEVF æ) + o(h(a)) NEN Y h(a), 
(12.155) 
H h(a) = (ala), +, MD. RARE 6 ECPE) HARE 
部 极 小 值 点 处 的 性 态 .， 要 求 读者 证 明 , 采用 上 述 记 号 ,2z 是 局 部 极 
小 值 点 的 必要 条 件 为 


Pavf(w) 一 0， (12.156) 
h(a?) 一 0， (12.157) 
Vo (a!) =0. (12.158) 


即 ,过 是 由 的 一 个 逗留 点 .但 是 ,从 第 2 章 我 们 知道 , SPY KR 
的 Lagrange 式 也 必须 以 zz 为 一 个 这 留 点 , 即 


VLC, u) = Vf (a) -Ngu =O, (12.159) 
By LA h (12.158) AI (12.159), Lagrange 乘 子 向 量 能 写 为 
BSN Yf). (12.160) 


我 们 可 由 Lagrange 式 来 导出 BB， 令 4 如同 (12.160) 中 对 每 

个 了 定义 , 我 们 得 到 一 个 函数 
Ya) =f æ) — (h(a) NIVf æ). (12.161) 
RAAME CPE) 1) 8 eB eB , 但 是 它 不 一 定 在 
RT 0 HR EH Lagrango AWS Ox Lagrange XX +h AY po 
与 区 无 关 )、 比 较 上 和 由 , RNBHEMZHNBAL o HA 
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A, ARERR EAR p, Red ECPE LA 
一 个 极 小 值 ,而 不 仅 是 一 个 去 和 留 点 . 事实 上 , Fleteher™® 证 明了 下 
列 结 果 . 

定理 12.6 

Fa CR" 是 这 样 一 个 点 , 它 满足 定理 2.8 hiami, (PEH 
严格 局 部 极 小 值 点 的 充分 条 件 ， 则 Vo") =0, 而且 存在 一 个 
P>, 使 得 对 每 个 p> p™, EE Vow REER. 

在 我 们 能 应 用 这 个 恰当 惩罚 函数 法 之 前 ， 还 留 下 的 唯一 问题 
是 要 对 P 指定 一 个 值 ,使 单个 无 约束 极 小 化 会 产生 所 求 的 (了 也 ) 的 
最 优 解 .对 于 非 线 性 约束 函数 ， 临 界 参数 p* 的 计算 决 不 简单 . 
Fletcher 和 Lill?” 提议 取 

p=10) ¥7f(2°)|-+r, (12.162) 

其 由 人 TCA RR UME AO, 并 且 初 次 取 7=1， 然 而 , p 的 
MARIE pT, BME, 4 A a E 
V3g(w) 出 现时 , 就 必须 用 增加 7 来 调节 p。 注 意 , 若 Y2 不 合用 ， 
就 利用 这 个 Hesse 阵 的 一 个 有 限 差分 近似 一 个 任意 的 、 不 一 定 
很 大 的 p 和 值 在 极 小 化 算法 中 可 能 造成 数值 计算 的 困难 ， 所 以 应 该 
避免 . 

由 412.155) 给 出 的 $, 是 在 普通 Lagrange 式 或 其 近似 式 上 增 
漆 附 加 项 而 得 到 的 ， 这 样 做 是 为 了 保证 中 的 Hesse 阵 在 约束 最 优 
和 解 处 是 正定 的 ， 象 风 这 样 的 函数 也 称 为 增 广 Lagrange xt, 将 在 下 
节 更 广泛 地 研究 ， 

ERA > Lagrango 型 函数 的 另 一 种 方式 是 


p(s) =f (e)— (yle) hle), (12.163) 
Hok y(r) EB? 由 下 式 给 出 : 
ya) =N Vf (æ) ~ pN} (N Y hlæ) (12.164) 


ZE ya) s AY eB, TE EY Lagrange 式 中 , 向量 彤 与 mw 无 
关 . 下 而 导出 一 个 有 趣 且 有 用 的 结果 . 对 任何 给 定 的 ECR, 
虑 如 下 的 二 次 规划 : i 
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(QP) min Q(z) =2"Vf (2) + pzz (12.165) 
受 限 制 于 


U(z) 一 人 82 十 大 (到 ) 一 0. (12.166) 
于 是 ,我 们 有 下 列 定 理 ， 
定理 12.7 
设 (QP) 所 联系 的 Lagrange 式 定 义 为 
L(z, te) =Q(z) -ud (2), (12.167) 
ti Np BR, 则 
He=y(&), (12.168) 


Hh y (£) h 12.164) ea 

这 个 定理 的 证 明 是 线 代 数 的 一 个 练习 , 留 给 读者 去 做 ， 注 意 ， 
二 次 规划 由 出 现在 (PE) 中 的 一 些 函 数 来 定义 ， 这 些 函 数 在 区 求 
值 ,所 以 在 (12.166) 中 的 1z) 是 在 的 一 个 线性 近 僻 ,并且 A) 
是 让 在 六 的 一 种 “一 次 近似 ”其 中 VA) pI 代替 . 

我 们 现在 将 看 到 , 这 样 的 二 次 规划 的 求解 , 是 不 等 式 约束 规划 
的 Fletcher 怡 当 惩 罚 函 数 法 的 一 个 实质 部 分 . 

所 以 ,考虑 由 (12.3) 至 (12.5) 定 义 的 问题 (P)， 并 定义 对 应 的 
二 次 规划 


(QP1) min Q(z) =2°V7(8) +5 pote (12.189) 
受 限 制 于 
l) = (NS) "2z+9(%) 20, (12.170) 
lale) = (Nt) +A(S) 一 0， (12.171) 


Hp glaw) = (gla), =, gm(@))", ha) = (hala), «>, jz))7 并 
E NS, 和 NE 分别 是 以 Vgye( 全 和 Vhs (2) ATE, —E p (ee 
指定 并 且 出 发 点 ER 被 选 出 ，(QP1) 就 能 用 某 些 二 次 规划 算法 
来 求解 , 它 也 得 出 Lagrange FI Ag (@), jo 人 分 ), 假定 在 (QP1) 
的 解 处 的 积极 不 等 式 约 束 在 (P) 的 解 处 也 是 积极 的 ,还 假定 (P) 和 和 
(QP1) fy Lagrange RFA, ME, RATA ET AK 
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d(x) =f (2) — (AoE) g lw) — (olh), (12,172) 
它 可 借助 于 第 LO 章 或 第 11 章 中 利用 一 阶 导数 或 可 能 也 用 二 阶 导 
数 的 方法 之 一 来 求 极 小 ， 注 意 ，(12.172) 的 每 次 函数 值 计算 需要 
求解 二 次 规划 (QP1)， 然 而 ,由 于 它 的 结构 , 二 次 规划 的 求解 并 不 
困难 ; 并 且 Fletcher 的 有 限 的 试验 5 表明 ， 一 旦 确定 了 (P) 的 局 
部 极 小 值 点 上 的 积极 不 等 式 约 东 的 正确 集合 ， 就 可 以 极 少 量 的 选 
代 次 数 达 到 收敛 ， 求 解 二 次 规划 的 算法 将 在 后 面 凡 章 中 讨论 . 


12.5 FAH Lagrange 法 


实现 头 两 节 中 叙述 的 方法 的 困难 之 一 在 本 质 上 是 固有 的 ， 随 
BER pt Kyle") METS, 由 于 在 能 行 集 边 界 上 的 不 连续 性 以 
RET i BN Hesse 阵 变 为 病态 , 数值 计 值 更 加 困难 .因此 ,导出 
那 种 只 需要 参数 采取 适度 值 的 方法 可 能 是 有 用 的 ， 这 里 提出 的 方 
法 丈 是 基于 这 个 事实 ,但 是 我 们 在 下 面 即 可 看 到 , 它们 也 与 恰当 惩 
Td PABA Lagrange 式 紧密 联系 . 


首先 考 虚 带 有 等 式 约束 的 非 线 性 规划 
(PE) min f (a) (12.178) 
受 限 制 于 
hw) =0, jd, p. (12.174) 


为 了 求解 这 个 规划 , Hestenes"? FE h FIA RKE RKKA. 

TABS, 加 ,…, hy HOKE A TR, HK oC R 是 (PR) 
的 一 个 局 部 解 , 使 得 定理 2.8 给 出 的 、 严 格局 部 极 小 值 点 的 充分 条 
件 香 以 满足 ， 也 就 是 说 , 存在 乘 子 ui, e, up 使 得 


VF (a") p> utVh,(a") =0, (12.175) 
h(s") =0, 7=1, =, p, (12.176) 
FFA, 对 每 个 满足 下 式 的 zs0， 
a’Vhs(@")=0, g=1, =, p, (12.177) 
我 们 有 
TVIL, w*)2>0, (12.178) 
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RIKER, TERIA IE Ao’, fia" ft sy Lagrange 式 
M(x, KREA KRIME, 其 中 


M(@, ut) =f e)ra) + Ea) (12.179) 


= Le, p+ Sa, (12.180) 


我 们 从 下 列 结果 开始 , 它 属于 Arrow, Could, Howe™, 
518 12.8 
SuM ve RMRKCRH EWER, WH ACEEK, 
有 (2) >0, BGK, 每 当 oz)<0 时 w(z)>0 的 充 要 条 件 是 ， 存 在 
一 个 数 o, 使 得 对 所 有 c 之 c* AEK RY 
u(z) +ev(z) > 0, (12.181) 
【证 明 】 假设 (12.181) 对 所 有 zE K 和 oo 成立 ， 则 ol) 
<0 RRA L> EZ, 9 K'E u< K OTR, 
倘若 K =0, 我 们 便 完 成 了 证 明 ; 于 是 假定 KK' 非 空 , 则 
ulz) +ev(z)>u(z)>0 (12.182) 
对 所 有 c> 及 适合 zEK' WEK Ry. AWK 是 紧 致 和 的 , M 
Bu plot K' 上 达到 各 自 的 极 小 值 . 相应 地 用 e A o" 记 这 些 函 
数 在 天 "上 的 极 小 值 . 那 末 对 某 个 2E 环 ,有 


v =n (2)>0, (12.183) 
4 0) =0, W ABERA u@)>0, R K' 的 定义 矛盾 ， 因 此 
a =9(Z)>0, (12.184) 
从 而 对 一 切 ee>> u MEK, RNG 
ulz) +ev(2) >u" +o">0, (12.185) 
了 


推论 12.9 
令 万 是 一 个 nxn 阵 ，B 是 一 个 mxn 阵 、” 则 对 每 个 满足 
Bz 一 0 的 z 关 0 都 成 立 *4z>0 的 充 要 条 件 是 ， 存 在 一 个 数 o> 0, 
使 得 对 所 有 cme" H zA, 成 立 
2"(A+cB"B)z>0, (12.186) 
18? 


【证 明 】 在 前 面 引 理 中 令 ul) =A: A ole) = (Bz)7Bz， 并 

令 
K = {z:z€ R’, zz=1}, (12.187) 

则 这 推论 由 引 理 12.8 对 2?z=1 的 所 有 z 成 立 而 推 得 , 从 而 它 对 所 
有 2z 王 0 也 成 立 。 J 

现在 我 们 有 下 列 定理 . 

定理 12.10 

假设 oo" 和 jy* 满足 定理 2.8 给 出 的 、s* 是 (PE) 的 严格 局 部 
极 小 值 点 的 充分 条 件 ， 则 存在 一 个 数 o> 0, 使 得 对 所 有 ee’, 点 
ot Mw, 4) 的 一 个 局 部 无 约束 极 小 值 点 ， 反 之 , 若 hyo) =0, 
3 一 工 +, p, PH ORM wR Mie, wR ICA RR AS 
Ai, M @° EPER A. 

证 明 由 前 面 的 结果 可 得 出 , 留 给 读者 去 完成 . 

从 上 上 一 定理 能 够 看 出 ， 若 Lagrange RT us 的 值 和 一 个 充分 
大 的 常数 可 以 得 到 ， 则 型 的 一 个 无 约束 极 小 值 点 也 成 为 (PE) 
的 一 个 最 优 解 。 当然 , 困难 在 于 决定 wr 和 <。 的 正确 值 . 

Hestenes HRF A HEARE k Lagrange RF 由 有 时 
也 修改 常数 。 所 组 成 . 假设 我 们 选 了 一 个 充分 大 的 “ 值 ， 并 设 在 
第 上 次 迭代 中 Lagrange RT MBAR MA 必 ， 我 们 求 Mo, 
Hz) 的 极 小 ,并 令 最 优 解 是 o, 注意 到 


Vell (am, MY = Vf (aM) ~ SM uh —chy (a) ] Vha) =O, 


(12.188) 
Lagrange FET ALTAR Bok, 
aitt = pieh), j=l, =, p, (42.189) 
FI FREN, ERER Mo, utt. 
gi) 12.5.1 
考虑 二 次 规划 
min f(s) == L tat ada, oE Rr (12.190) 


受 限 制 于 
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h(a) = > b= 0, (12.191) 


Et Q EIERNE, OTP AE (12.191) Wy 2 40 有 e>, 
向 量 ! 关 0 MRM a>O BAH. SAIL, ROE ©” =O, 而 
w= 是 相应 的 Lagrange 乘 子 ， 假 设 选择 常数 ce， 使 对 一 切 2 #0 
有 


vw Qa +-o(b?a)?>0, (12.192) 
则 
NM (wm, p”) -4 TQo+ab"o— ubet} o(b'e)?, 
(12.193) 
M 的 无 约束 极 小 值 点 we 必定 满足 方程 
Qa**+ ab — (ut —ebTa)b =, (12.194) 
从 上 式 我 们 得 到 
»_ Ge®—a)Q7d 
wT be eee 
EA w°=0 出 发 , 则 可 证 明 
2 —aQ 1h 
| ok = Grebo (12.196) 
从 而 ,车 
|1-+e67Q-18| >1, (12.197) 


DW Fe ei {a} ne Qe ot =0, YJ 
Powejl4 也 独立 地 提出 了 等 式 约 束 问 题 的 箭 子 法 , + 45-26 Dy 
于 Hestenes 的 工作 ， 他 考虑 了 下 询 双 参数 增 广 西数 的 无 约束 极 
小 化 ， 
M(a, o, «)=f(a) +$ oti i (12.198). 


TER, A o= 6/2 Ml aj= —ps/c, 则 除了 与 了 无 关 的 一 项 之 外 ,我 们 
再 次 得 到 由 (12.179) 给 出 的 Hestenes 的 增 广 函数 .Powell Fe 
法 基于 这 样 的 结果 :， 如果 e(o, a) (12.198) FER o Ai a HY 
某 组 值 的 一 个 无 约束 极 小 值 点 ， 则 oCo, a) 是 了 受 限 制 于 下 列 约 
RAD AR MEL: 
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hlæ) =hjle*(e, a)], ged, 0, p. (12.199) 
这 就 得 出 ,参数 和 = 必须 用 基 种 选 代 方式 调节 , 以 使 
lim{z[z(o% a®)]}=0, j=1, =, P. (12.200) 


实际 上 ，Powell 提议 选取 充分 大 的 os j=l, op 保持 它们 固 
定 ,并 调节 a 使 

abt —alt+hyle(oa, a], 7=1, =, p, 《12.201 > 
继续 校正 参数 o, EA) max! helo, a)) | AAR MMM SH 
ERA, 这 时 增加 cy 到 较 大 的 值 . 

这 个 方法 对 于 (PE) 的 解 的 收敛 性 能 够 在 比较 温和 的 条 件 下 
证 明 ， 我 们 介绍 Powell 的 下 列 收 化 性 结果 , 其 证 明 可 在 [48] 中 找 
到 ， 

定理 12.11 

BE o CR 是 (PE) 的 唯一 解 ,并 且 对 w* BES SR VC"), 
存在 2(3) > 0, 使 得 

Xe= {e:hy(a)=a;, g=1, =, p} #9, (12.202) 
其 中 每 个 a 满足 
la| <el), f=1,.…, P. (12.203) 
EBRR S, fi, ++, Bp 是 连续 函数 ,并 存在 一 自然 数 区， 使 得 对 每 
NkSK, Mla, of, or*) 的 无 约束 极 小 值 点 落 在 一 紧 致 集中 ， 则 这 
些 航 小 值 点 的 序列 收 全 于 2， 

这 个 方法 收敛 性 的 附带 结果 表明 收敛 速率 是 线 狂 的 ， 然 而 ， 
最 近 已 表明 这 收敛 速率 能 够 改进 . 类似 于 上 述 两 种 方法 的 男 一 种 
T, 也 已 由 Haarhof Buys” 提出. X, Hestenes FHGH 
Mielo 及 其 合作 者 后 全 和 纪 从 计算 角度 予以 广泛 研究 . 

解 等 式 约 束 非 线性 规划 的 溢 子 法 由 下 列 作者 拓 广 到 不 等 式 约 
束 问题 ， Bortsekas™ >, Buys Kort-Bortsekas 7:38 Pierre, 
Rockafellar4® 我 们 在 这 里 简要 叙述 Rockafellar 的 工作 . 

假设 要 求解 由 (12.,3) 至 (12,5) 给 出 的 等 式 -不 等 式 约束 问题 
(P). 定义 
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(4) =max{t, O}, (12.204) 
那 末 对 任何 正 数 o 我 们 有 


1 (9u acg(z)1 一 


eae) Ago), gular de, 
= (12.205) 
Ae”? gitar) >g? 


并 且 增 广 Lagrange 式 M (r, A, ORREN 
Mw, dw) ~f(@) +> Sy {16m —2egi)) 1? 一 (分 
-È uha) +2 $) uey], (12.208) 


在 练习 12.D 中 ， 要 求 读 者 从 先前 的 公式 导出 (2.206). 2 

意 , 与 第 3 章 的 结果 不 同 , 出 现在 (12.206) 中 并 相应 于 (P) 的 不 等 

AAR Lagrange 乘 子 并 不 要 求 非 负 ，Hestenes 和 Powell 的 乘 

子 法 现在 能 够 很 容易 地 推广 , 对 一 个 给 定 前 >0 BUR TOY, ut), 
A ak 是 无 约束 最 优化 问题 

min Mia, 2*, p*) (12.207) 


的 最 优 解 . 再 次 注意 到 
VaM (a, KE, pE) — Vi (al) — ON Zoga) Vga) 
-$y cha) Vij (a) =0, (12.208) 
所 以 取 
MO Beg (at)), i=l, mm (12.209) 
p5 = py chia"), 7=1. DB (12.210) 
是 合理 的 . 
这 个 方法 对 于 (P) 的 最 优 解 的 收敛 性 , 能 在 类 似 于 定理 12.11 
的 那些 条 件 下 证 明 ， 此 外 ，Rockafeljlar WAI TRAF HR 
3 (CP) — + ei 33 — FP, (OP) (4.158) $(4,160) Bik, 并 
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满足 强 相 容 性 条 件 (Slater 条 件 }。 这 个 过 程 在 每 次 迭代 中 不 要 求 
M 的 一 个 精确 的 极 小 值 点 ,并 且 c 的 值 能 够 保持 不 变 . 关于 细节 ， 
读者 可 参看 [49] 。 

至 今 所 述 的 方法 在 计算 上 可 能 的 缺点 , 是 增 广 Lagrange xX M 
通常 只 一 次 可 微 ， 在 本 节余 下 部 分 ,我 们 将 统一 、 推 广 并 在 可 能 时 
改进 这 里 谈 及 的 工作 .。 这 种 统一 做 法 的 日 的 , 是 把 一 个 一 般 的 不 
等 式 -等 式 约束 问题 的 最 优 解 ， 与 一 类 上 ” 义 Lagrange 式 的 相应 无 
约束 去 留 点 一 甚至 更 好 是 这 些 话 数 的 无 约束 极 小 值 点 一 一 联系 
起 来 ， 这 个 论题 的 下 列 结果 属于 Mangasarian™”, 

再 次 考虑 由 (12.3) 至 (12.5) 给 出 的 一 般 非 线性 规划 P). E 
MY X Lagrange 式 


GT, y, 0) =f(®)— Boole), v) — Hue), w), 


(12.211) 
Hp P(r, za) 和 Wes, 2a) 是 定义 在 开 ES, RIIA 
R o Al Ya AR RE a AF: 
1. 方程 
ap(0, v) ap, 7) _ 19 
ns, Sot AO (12.212) 
WE 80 有 一 个 解 六 方程 
ad 1) _ plg n) _ 
0 anio (12.213) 
对 每 个 5>0 有 一 个 解 9。 
2. 方程 
ab (0, 0) _ Ov(0, n) _ 
多 一 局 Sm o (12.214) 
WH 8 AT n. 
3. 关系 式 
0, ZE, 0) o (12.215) 
ZI O21 


nb ESON E, EBL 
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ae a) =f) (12.216) 
wj €>=0 Fa Sy =0, 
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4. Æ 
ap lE, 17) _ 要 i 
a nee 一 0. (12, 21 ) 


my E=0, 

建议 读者 在 阅读 下 面 结果 之 前 ， 复 习 一 下 在 定理 3.8 中 提出 
的 数学 规划 最 优 性 的 Kuhn-Tucker 必要 条 件 ， 我 们 有 下 列 定 
a, 

jE 3212.12 

ws, Jis ts Gms his +++, ho E w" 可 微 . F a BAER HE (3.71) 
FRE AS CP) He a, Ao AE TP ER”, 
eGR BE (3.72) B (38.74), PPK (P) 的 最 优 性 的 广义 
Kuhn-Tucker 必要 条 件 成 立 ， 则 x* Att y CR”, we 2B? 成 为 
GL 的 逗留 点 ， 也 就 是 说 ,倘若 上 面 的 条 件 (I) 和 (2 满足 , 则 有 


VGL(a", y*, wt) =O, (12.218) 
RZ, Ce, 久 好 ) 满 足 \12.218), 其 中 
nt = PECICA, 94) Vi) gad, +, m, (12.219) 


m= CHO) es > j=i, e, Ps (12.220) 


则 当 条 件 (3) (4) BES, WE, A, CP) a 
JX. Kubn-Tucker 必要 条 件 . 

GE) #2 是 (P) 的 一 个 局 部 或 整体 解 且 (3.71) 成 立 ， 则 
Kuhn-Tucker 条 件 (3.72) 至 (3.74) 对 o* PEP ML we 满足 令 
pE y RER DMO), IERRA RR, 并 定义 六 、w 为 


PpO D ys PpO, W)_9 = gE T(a*), 2.221) 
Oz Za 
Apa"), #) .0 Aplao, 4EI(at), (12.292) 
f zı 2 ; 
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ap, wh) ar WO WH) 0 jl [2 .22 
Ox1 = ys O29 pon :0， 2 =~, > P. (12.223) 


于 是 ,由 (3.72) 至 (3.74) 以 及 (12.221) 至 (12.223) 可 导出 
ViGL(a", Y”, w) 一 Vi (2") )- 3 AOI), Yi) Voila") 


-$ tA AE D Vh;(a")=0, (12.224) 


j=1 


D ui A ee ee 


OG Ta", y*, w) 


OY; Oza sis 
(12.225) 
OGL a", y, w") Dhla), wy) a ee 
aw; Ba 9, 3 1, > P. 
(12.226) 
因此 
VG h(a", y*, w*)=0, (12.227) 


反之 ,假设 (o*，or， so) 满足 (12.218)， 并 设 条 件 (3) 和 (四 成 
立 ， 用 (12.219) 和 (12.220) 分 别 定义 从 和 jw， 从 (12.224) 我 们 
得 到 
Vf (a) — SI NV g(a") — Vhs) =O, (12.228) 
从 条 件 (3) 中 的 (12.215) 和 (12.219) 就 有 


MSO, icre), (12.229) 

从 条 件 (3) 中 的 (12， 216) 和 (12.225), 我 们 得 到 
gfa*)>0, i=l, ,mn, (12.230) 
yigka")=0, i=l, =, m, (12.231) 


SM (12.215), (12.219) fy (42.281), BINA 
~ ee. 5 Yi) = PPUT, 0) =0, EIl), 
(12.282) 


最 后 , 从 (12.217) 和 (12.226), 我 们 有 
hile) =0, j=l, =, p, (12.233) 
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把 (12.229)，(12 :280) 和 《12.232) 综 合 为 下 列 等 价 的 表示 式 . 
Moo") =0, j=1, +, m, (12.234) 
at=0, (12.235) 
我 们 断定 (12.228), (12.230) 以 及 (12.233) 至 (12.235) 是 定理 
3.8 BIH Kuhn-Tucker 条 件 ， 了 
若 进一步 前 条 件 加 于 $ 和 由 则 可 保证 对 参数 a 的 充分 天 的 
E, 雷 定 理 第 一 部 分 给 出 的 、GZE RAEE A, y", we"), SPRY 
FGL, y*, w") 的 一 个 严格 无 约束 局 部 极 小 值 点 . 从 而 在 恰当 
RET oR Re FAH Lagrange 式 中 的 前 述 结果 被 推广 了 . 
考察 函数 和 芷 前 某 些 例 子 ， 它 们 满足 上 一 定理 所 要 求 的 条 
HEE, UER GL FEl", y“, why Hesse 阵 为 正定 的 条 
tF. E 


ra), +0, 
ORI A a (12.236) 

并 令 
og, M=r m) Ei-ei) (12.237) 
lE mM =r) ~T aai), (12.238) 


其 中 个 是 及 上 一 个 可 微 实 函 数 , cORR-TtSH BHI RY 
必须 满足 一 定 的 条 件 ，(a) 导数 EE RRA R ER H 
HEX, T'O) 把 [0，co) 映 射 到 自身 , AL'(0)=0; (b) r RR 
上 使 二 0 一 0 的 一 个 非 负 凸 冰 数 ; 《ec) T E R EZAM R K, 
对 tz¥0 LG) >O, HAO") <0, 满足 条 件 (a)、(b) 和 (0) 的 
eK T 的 例子 是 


Pi) =O", a>0, B=4 6, +=, (12.289) 


Pat) =F ettet (8) 1, (12.240) 
P(t) -If eette) = Tig (12.241) 
对 应 于 这 些 函 数 ,我 们 得 到 
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AE, = g-a], 0, B= 4, 6, 
(12.242) 
hl, n= gaa], a>0, B=4, 6, = 
(12.248) 
等 等 ， 令 B= 和 我 们 能 把 规划 (P) 的 广义 Lagrange 式 写 为 
GPa(o, y, w) =f(2) -F XL 一 (一 ago) 


-i Dw) — Cw oy) (12.244) 
满足 (a)、(p)、(e)( 除 条 件 Z(O) ~0 以 外 ) 的 函数 的 一 个 例子 给 
出 为 
OEE AO a>0, (12.245) 
从 它 我 们 得 到 
pal, mel mat), (12.246) 
WE, WD) = (nag), (12.247) 
和 
GLale, y, w) =f) -E BL? (uage) 
-a Dlo) (jah) 7], (12.248) 


Foa, Mhan 由 一 由， 读者 容易 验证 GL, 恰好 是 (12.206) 给 
号 的 Rockafellar 的 增 广 Lagrange xt, 它 不 是 处 处 二 次 可 微 的 , 这 
与 基于 (a)、(b) 和 (0) 的 所 有 条 件 的 函数 工 的 广义 Lagrange 式 是 
不 相同 的 . 

Mangasarian®” 世 得 到 了 基于 广义 Lagrange 式 的 对 偶 结 果 
以 及 求 GL 极 小 的 超 线性 (或 二 次 ) 收 敛 算 法 ， 这 个 算法 本 质 上 是 
月 Newton 法 去 解 一 族 非 线性 方程 VGLe, y, w)=0. RH 
发 展 中 ，Mangasarian FUR FRY FEARS RY R 更 一 般 的 
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Lagrange 式 中 去 , 并 得 到 线性 收敛 的 算法 ， 
12.6 £7 BREHSTIIRES 


PRLS PHS ABT RE, 由 一 系列 元 约束 极 小 化 所 
组 成 ， 广 泛 地 被 用 于 求解 非 线性 最 优化 问题 . 第 12.4 节 和 12.5 
节 的 方法 更 为 新 近 , 所 以 计算 经 验 十 分 有 限 . 然而 我 们 相信 , 它们 
能 够 十 分 有 效 , 并 且 可 能 成 为 主要 的 全 能 工具 之 一 ,用 以 获得 高 度 
非 线性 问题 的 数值 解 . 

惩罚 函数 法 ， 即 以 归并 约束 函数 到 无 约束 问题 的 目标 函数 中 
去 的 方式 把 约束 问题 化 为 无 约束 问题 的 方法 ， 预 期 对 非 线 性 约束 
函数 能 特别 有 效 . 因为 在 后 儿 章 中 我 们 将 看 到 , 线性 约束 能 用 各 
各 其 他 方法 有 效 地 处 理 ， 所 以 把 它们 归并 到 人 息 罚 函数 中 不 是 特别 
有 用 .外 部 惩罚 法 和 内 部 惩罚 法 存在 着 简单 的 修改 ,用 一 种 混合 
的 “ 非 约 束 - 人 简单 的 ”(unconstrained-simplicial) 算法 单独 地 处 理 
线性 约束 , 解 非 线 性 规划 的 真正 挑战 在 于 处 理 非 线 性 约束 .。 对 这 
样 的 问题 , 惩罚 函数 具有 某 些 肯定 的 优点 , 最 重要 的 或 许 是 , 与 其 
他 直截了当 地 处 理 非 线性 约束 的 方法 大 不 相同 ， 惩 罚 郑 数 法 避免 
了 沿 能 行 集 边界 线 移动 或 力图 不 越 出 边界 这 一 花费 时 间 且 又 十 分 
艰巨 的 任务 ， 另 一 个 优点 是 , 在 多 数 场合 下 , 为 了 应 用 这 个 方法 ， 
无 须 对 出 现 于 问题 中 的 函数 作 一 些 特殊 的 假定 如 凸 性 或 广义 凸 性 
之 类 .后 面 我 们 将 看 到 , 有 些 其 他 算法 只 对 特殊 的 函数 族 定义 , 这 
样 就 不 能 普遍 使 用 9。 虽然 许多 算法 收 伍 于 问题 的 解 , 它 满足 定 
H 3.8 给 出 的 Kuhn-Tucker 一 阶 必要 条 件 ,然而 序列 无 约束 极 小 
北方 法 一 般 收 敛 于 满足 定理 3.10 的 二 阶 必要 条 忻 的 点 。 因 此 ,在 
这 些 点 上 也 期 望 能 满足 二 阶 充分 条 件 .能 够 证 明 , 在 二 阶 条 件 成 立 
的 点 的 近 旁 ， 序 列 惩罚 方法 的 迭代 常常 由 严格 凸 函 数 的 无 约束 极 
小 化 组 成 , 见 MoCormick[38] 和 Polyak [47]. 

”用 无 约束 极 小 化 有 效 地 求解 约束 问题 ， 强 烈 地 依赖 于 实行 无 
约束 最 优化 的 数值 方法 . 最 有 效 的 无 约束 方法 是 第 10 章 和 第 11 
章 中 讨论 的 一 批 ， 这 些 方法 利用 由 求 航 小 的 函数 的 梯度 以 及 有 时 
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是 Hosso 阵 的 值 的 计算 所 提供 的 信息 ， 有 识 刺 意味 的 是 ， 这 种 方 
PERT PP SUT AY INT AH. MAEHE 
HOW FE MIR, CET BLS Hose 阵 逐 渐变 得 更 病态 ， 例 
如 , 考察 一 个 如 同 (12.82) 那 样 的 混合 惩罚 函数 Ho, p), TIER 
解 具有 等 式 和 不 等 式 约束 问题 (P) 给 出 的 ， 令 
H (a, pt) =f (æ) — p $ log gla) +- Zla), 

(12.249) 
其 中 请 >0. 并 且 当 {p9 一 0 时 实行 对 五 的 一 系列 无 约束 极 小 化 ， 
H $ Hesse 阵 由 下 式 给 出 : 

k 


VH (a, p*)=-V4f(@) -EE y Vig (o) + UE om, (a) 


-r Vota) Y pE" 
+$- 5. Vi a)(VAyCo))?, (12.250) 


能 够 证 明 "， 序 列 {p*/gy(w*)} 和 a) 在 温和 假定 
下 分 别 政 敛 于 相应 的 Lagrange Jef AS F uj. XIE, VH 的 前 三 
项 收敛 于 Lagrange 式 的 Hesse 阵 , 它 有 有 限 的 特征 值 . SRT, 余 
FARASE I {os ge) 7} Fl {2/0}, 它们 在 多 数 情况 下 无 界 地 
递增 从 而 造成 病态 . 这 个 问题 近来 已 受到 一 些 注意 , 提出 了 惩罚 方 
法 的 几 种 修改 . 读者 可 参考 Fleteher、MeCann50，Lootsnaaat, 3%, 
以 及 Murray“®, 由 Lootsma™) 作 的 问题 的 分 析 表 明 ， 对 于 由 
(H12 .2349) 给 出 、 利 用 (12.51) 中 朴 数 Y 的 函数 Ae, p*), 比 起 利用 
《12.52) 或 (12.53) 的 惩罚 函数 来 说 , Hesse 阵 的 病态 更 加 快 . 另 一 
方面 ， 带 有 (12.51) 中 函数 g 的 收 伍 性 通常 比 用 其 他 两 个 函数 快 . 
一 个 有 关 的 困难 是 , 惩罚 函数 的 Hesse 逆 阵 趋 于 奇异 , 这 主要 出 现 
在 用 变 尺 度 算 法 求解 序列 无 约束 极 小 化 的 时 候 . 我 们 期 望 , 借助 
于 转向 恰当 惩罚 法 或 莱 子 法 ， 延 罚 函数 法 的 那些 与 Hesse 阵 联 系 
的 大 多 数 缺 点 将 会 消除 . 

Lootsma™? 检验 了 前 几 章 叙述 的 儿 种 无 约束 最 优化 方法 ， 在 
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应 用 于 求 惩 罚 函 数 的 极 小 时 的 执行 情况 .在 有 限 几 个 试验 问题 的 
基础 上 , 他 推荐 利用 BFS 方法 或 修改 的 Newton FEO AH) I 
法 的 一 种 特殊 的 无 约束 技术 以 及 障碍 函数 的 一 种 线性 搜索 已 分 别 
由 Lasdon™ 和 Lasdon, Fox, Ratner"?! 提出 . 

在 惩罚 函数 法 中 一 个 有 趣 而 有 用 的 特点 ， 是 借助 于 外 推 来 加 
速 该 方法 的 收敛 性 ， 如 Fiacco, McCormik'* 所 建议 。 其 想法 是 
在 建立 最 优点 序列 {e 叶 时 ， 利 用 这 个 序列 中 已 有 点 的 级 数 展开 去 
估计 相继 点 。 所 得 到 的 这 个 信息 能 用 来 开始 带 有 下 一 个 惩罚 参数 
值 的 无 约束 最 优化 ， 可 以 想象 ， 这 种 加 速 技 术 对 其 他 类 型 的 算法 
也 是 有 用 的 , 但 这 个 论题 还 没有 受到 适当 的 注意 ， 


练 J 


.让 ， 画 一 个 求解 问题 (P) 的 外 部 惩罚 函数 法 的 框图 . 假定 无 约束 最 优化 
是 执行 ，(a) 9.5 节 的 Powel 方法 ,或 《bj BFS 方法 那样 的 赛 尺 谋 
算法 .讨论 两 种 情况 下 计算 .上 可 能 的 优 缺 点 ， 并 列举 实现 这 两 种 方 
法 时 预期 会 产生 的 困难 . 又 ， 售 车 不 等 式 约束 问题 的 最 优 解 落 在 能 
行 集 内 部 ， 讨 论 外 部 惩罚 函数 法 的 性 态 ， 并 用 数值 例子 说 明 这 个 性 
态 . 

12.B. 试 证 由 

X= {zr € R’, (xa)? (eye)? + raza 0 (42.251) 

给 出 的 集合 Xi, 并 不 满足 12.2 节 中 对 (PD 所 假定 的 正则 性 条 件 . 


A 
> 


Xo= $r; z € R”, g(x) >0}, (12.252) 
求 一 个 实 函 数 9, 使 Xe 的 内 部 X EZ, 但 对 每 个 rEX8 有 9CG) =0, 

12.0. 证 明 无 参数 外 部 方法 在 13. 工 节 所 述 条 件 下 的 收 仇 性 - 
12.D. 用 本 童 讨论 的 鼻 罚 负数 法 解 下 列 约 束 问 题 59， 利 用 前 上 儿童 中 
发 展 的 无 约束 极 小 化 的 数值 方法 ， 这 些 方法 在 你 的 计算 机 中 是 可 用 


的 ， 
(a) min { (21)? — 621)? +1121 +23} (12.253) 
SEP iN 
(z1)? + (a2)? — (xa)? <0, (12.254) 
(E1) + Cra)? + (29)? 4, (12.255) 
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z5, (12.2563 


TD, coz, zo 0, (12.257) 
一 个 最 优 解 在 2*=(0, V2, V2), 
{by min {(21— £a? + (£a — xX) (12 .258) 
SEER IT 


©4 +21 (2)? + (2y)4-=3, (12.259) 
一 个 最 优 解 在 x* 二 C1, 1, 1). l 


E. 按照 利用 (12.10) 和 《12.14) mph AR TI AREKEA 12.5.1 中 的 


12.4. 


12.4. 
12.1. 


12.7. 
12.K. 
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二 次 规划 , 令 1/px*= (441) /2 和 B= 2, ARAM aE oe} T 
式 确 定 : 


*_ -ag lb 
一 TZU DOE: (12.260) 


FERAE PIN E OE E PARA cp a OR FP Te SE EER, 


、 ERRE HER PER: eT A> 0 AI— MAE ACR, 


yB, AV=0, i=l, =, m, (12.261) 
假设 入 E 4, 又 双关 于 (PT) 是 能 行 的 ,， 且 公 是 (18.132) 的 一 个 局 部 极 
小 值 点 , 那 末 到 也 是 问题 (PI) 的 -- 个 局 部 极 小 值 点 ， 
试 证 ,在 第 2 章 和 第 3 章 叙 述 的 最 优 性 的 乓 nuhn-Tucker 必要 条 件 ,对 
于 等 式 约 束 规 划 ( 了 孔 ) 米 说 ,在 艺 是 


Pyf(z) =0, (42. 262) 
A(z) =0, (123. 263) 

其 中 王 由 《12.15 和 给 出 ， 给 出 (13.262) 芍 一 个 玫 何 解释 , 并 证 明 
Vo(2)=0, (12,264) 


其 中 由 由 (12.155) 定 义 . 

证 明定 理 12.7, 

假设 在 例 12.5.1 中 所 述 的 二 次 规划 中 的 @ 是 正定 的 ， 用 带 有 oc=1 
和 a?=0 的 Powel 乘 子 法 去 解 这 个 规划 ， 将 得 到 收 化 于 z* 一 0 吗 ? 

if BARE BE 12.10, 

一 个 等 式 -不 等 式 约束 的 非 线性 规划 ， 诸如 本 章 开 始 时 提出 的 CP), 
用 引进 松弛 变量 的 方法 , 能 把 它 转 变 为 等 价 的 规划 。 这样, 规划 (P) 
能 重 写 为 

(P’) min f(x) (12.265) 


5 
z 


受 限 制 于 


92) 一 名 一 人， i=l, e,m, (12. 266) 
ha) =0, j=l, os Pos (12. 267) 
420, i=1, =, m, (12. 268) 


用 Hestenes 梁子 法 求解 这 个 规划 ， 就 是 找 一 个 TE Rr fsck", 
3# 庆 0, 使 下 述 涵 数 极 小 化 ， 


M(x, 4,2, DS E) — Mga) H ae) 
-È uhe) tE Sun ayy’, (13. 269) 


注意 , 相对 于 2> 0 的 极 小 化 能 够 明显 地 作出 , MTM, A, 4) 
的 公式 (12.206), 


， 假设 (SP} 是 5.2 节 定义 的 一 个 标准 原 有 凸 规 划 , 即 


(SP) min f(z) (12.270) 
受 限 制 于 
ne), Wels yw (12.271) 


(a) AC5.120) FARR S h F SP) BOE fn (12.206) 的 
增 广 Lagrange 式 M (x, A): 


(QSP) min f(z) +c Sirs) 2 (12.272) 
受 限 制 于 

gz) 2m, i=l, =, m, (12.273) 
Hip c>0 BER, 


(b) 证 明 对 应 十 (SP) AHR Do 为 
Bo (w) =Pp(w) +e PCa 2 (12.274) 


其 口 Bp 是 对 应 于 由 人 ,I11) 和 (5.112) 定 义 的 (PSP) 的 扰动 隐 数 . 


用例 3.4 .和 由 提 妆 问题 说 明定 理 12.12. 取 x*=(0, 0), 并 选择 


a=l, y=}, 加 一 0， 接 (12.344) 定 义 GE (0,0, $, 0) BPX 
Lagrange 式 当 a> 1 时 的 一 个 极 小 值 点 吗 ? 


证明: 由 (12.23 纪 至 全 2.341) 给 也 的 2、 和 了 sa， 必定 如 断言 的 


MERER WMO, 
ROL 


5. 


13. 


14. 


15. 
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第 13 章 


用 无 约束 最 优化 方法 的 
扩充 求解 约束 问题 


前 一 章 我 们 把 约束 结合 进 目 标 函 数 ， 作 间接 的 处 理 . 与 此 相 
反 , 这 里 讨论 直接 处 理 约束 的 方法 ， 现在 给 出 的 方法 是 为 无 约束 
最 优化 问题 导出 的 方法 的 扩充 , 其 中 引进 了 考虑 约束 的 额外 步 又 . 
这 些 步 又 首 先 寻 找 一 个 导 疝 约束 极 小 伪 点 的 下 降 方向 ， 然 后 执行 
一 个 限制 存 能 行 集中 的 线性 搜索 下面 将 会 表明 , 对 线性 约束 问 
RM, 这 些 客 外 的 步骤 是 不 难 完 成 的 ， 如 变 尺度 法 等 某 些 有 效 的 无 
约束 方法 在 出 现 线性 约束 时 ， 也 是 非常 有 效 的 。 因为 这 样 的 算法 
是 成 功 的 , 普遍 认为 , BEART Be, 线性 约束 仍 应 当 直 接 
进行 处 理 , 而 不 是 被 转化 成 不 同形 式 的 增 广 目 标注 数 . 关于 一 般 
韭 线性 约束 , 没有 这 样 的 一 致 看 法 , 但 是 可 以 看 到 , 在 目前 的 数值 
方法 状况 下 , 对 这 种 类 型 的 问题 宁愿 用 乱 罚 方法 ， 在 直接 方法 中 ， 
刺 踊 积极 非 线 性 约束 (如 等 式 约 束 ) 的 过 程 通 常 是 一 个 困难 而 又 费 
时 的 工作 , 应 当 避 免 . 一 种 可 能 的 选择 是 将 非 线性 约 东 相继 线性 
化 ， 其 结果 一 般 就 成 为 由 求解 一 系列 线性 规划 组 成 的 一 种 方法 , 
这 各 外 理 在 第 14 章 讨论 . 

第 13.1 节 给 出 不 用 学 数 的 .无 约束 最 优化 的 经 验方 法 对 约束 
问题 的 简单 推广 ， 这 些 方 法 在 无 约 东 问题 中 的 做 法 是 在 第 9 章 中 
讨论 的 、 梯 度 投影 或 “偏转 梯度 法 是 13.2 节 的 主题 , 它们 是 最 速 
下 降 法 和 变 尺度 算法 的 扩充 .在 13.3 节 中 有 二 次 规划 的 一 个 算 
法 ， 它 说 明了 上 述 方法 的 一 种 特殊 情形 ， 对 于 一 般 函 数 在 约束 下 
的 极 小 光 问 题 的 求解 来 说 ， 能 行 方向 法 是 首 批 设计 的 一 个 数值 方 
法 ， 对 于 线性 约束 情形 的 这 一 方法 在 13.4 节 中 讲述 ， 最 后 , 以 投 
影 方 向 法 和 能 行 方向 法 直接 处 理 非 线性 约束 来 结 来 本章， 同时 给 
出 几 个 把 韭 线 性 约 来 问题 简化 为 线性 约束 问题 的 新 方法 . 
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13.1 经 验方 法 的 扩充 


在 9.1 节 至 9.3 节 中 介绍 的 各 个 经 验方 法 都 已 被 扩充 ， 用 来 
处 理 约 束 问 题 ,我 们 以 单纯 形 法 的 有 约束 形式 开始 讨论 这 种 扩充 . 

设 所 考 钳 的 问题 是 ， 求 实 函 数 卫 的 极 小 值 点 wrE BRB"， 受 限制 
于 不 等 式 约束 (已 表示 为 记号 方便 的 形式 ). 


lw, gl, srt, M, (13.1) 
FE w= Ca, …， a)” 是 独立 变量 向 量 , 且 
ost 一 ge) i=l, =, mn, (13.2) 


ER uy A FG BERCAR oHa. Box 把 单纯 形 法 扩 
充 去 解 这 问题 ,相应 地 ,他 把 有 约束 单纯 形 法 称 为 复合 形 法 .人 先是 
应 用 于 Spendley 、Hext、Himsworth “9 的 方法 ， 但 也 能 应 用 于 
Nejder .Mead53 的 改进 单纯 形 法 . 

假定 已 给 一 个 满足 (13.1) 中 所 有 各 个 约束 的 初始 能 行 点 以， 
Box 提议 ,不 是 产生 初始 单纯 形 的 其 余 % 个 点 , 而 是 产生 六 二 n 个 
附加 点 , 这 里 N 的 典型 值 为 m, 这些 点 一 次 选 一 个 , 使 得 它们 的 
第 ) 个 分 量 满足 

w= bh) j=l, nm, k=1, --, N, (13.3) 

其 中 ri RA (0, 1) RSL. 由 (13.8) 定义 
的 点 将 满足 (13.1) 中 前 % 个 约束 ， 但 可 能 违反 “ 隐 式 ”约束 即 第 
n+l, =, m 个 约束 。 在 这 种 情形 下 , 这 些 非 能 行 的 试验 点 就 向 已 
选 定 的 能 行 点 的 形 心 缩 回 一 半 ， 直 到 最 后 所 有 性 点 都 变 成 能 行 
的 ， 

其 次 决定 通 数 值 , KHUN 代 将 算出 式 (9.1) 至 (9.4) 的 有 关 
值 ， 即 果 从 反映 步 又 得 到 的 点 oo” 是 能 行 的 , 则 计算 就 贤 着 无 约束 
JASOB WI ETT, 直至 遇 到 非 能 行 点 . 如 果 一 点 违反 了 (43 .1) 
中 前 % 个 约束 之 一 ， 则 违反 了 的 分 量 重新 取 秆 于 适当 的 范围 以 给 
出 进一步 的 试验 点 . 但 如 果 某 个 “ 隐 式 "约束 被 违反 , 则 向 着 进行 
反 足 的 形 心 缩 回 一 半 以 产生 进一步 的 试验 点 ， 直 至 该 点 变 成 能 行 
点 . 
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Mitchell, Kaplan”? 提出 另 一 个 泵 用 随机 数 而 获得 初始 复合 
形 的 过 程 ， 他们 的 初始 复合 形 由 nl 个 点 组 成 , 通常 比 Box 方 
法 构造 得 的 要 大 , 这 样 , 它 就 增加 了 机 会 以 求 得 整 钵 极 小 值 点 而 不 
是 局 部 极 小 值 点 . 

在 一 个 复合 形 中 便 用 多 于 nt1 个 点 的 原因 在 于 , 向 约束 的 能 
行 一 侧 收 缩 的 结果 ,出 nti 个 点 组 成 的 单纯 形 趋 于 崩溃 , A 
成 全 空间 了 . 结果 真正 的 极 小 值 点 容易 被 遗漏 . 复合 形 法 的 一 般 
行情 况 类 做 于 无 约束 时 的 做 法 ， 它 是 一 个 较 慢 的 但 可 靠 的 方法 ， 
在 解 一 个 给 定 问 题 时 , 它 的 成 功 紧密 地 依赖 于 初始 点 , 它 的 效率 随 
着 变数 个 数 的 增加 而 很 快 地 衰减 . 

Glass, Cooper" 把 9.2 节 的 模式 搜索 法 推广 到 约束 最 优化 . 
在 他 们 的 方法 中 ,搜索 从 一 个 能 行 点 开始 , 一 直 继 续 至 一 个 或 多 个 
约束 已 达到 ， 因 而 在 违反 约束 时 已 不 可 能 再 用 勘探 移动 来 继续 这 
方法 ， 这 时 , 由 另 一 个 子 程序 借助 于 解 荣 个 线性 规划 问题 来 决定 
一 个 新 方向 ， 这 线性 规划 问题 是 将 目标 函数 与 约束 函数 作 线 性 近 
似 而 形成 的 。 因 为 这 个 方法 比 复合 形 法 或 者 下 面 将 描述 的 方法 复 
RBS, 同时 ， 比 本 章 后 面 讨论 的 儿 个 更 巧妙 的 算法 效率 低 得 多 ， 
所 以 它 的 应 用 不 广泛 ， 这 个 方法 的 细节 和 某 些 数值 经 验 可 以 在 
[18] 中 找到 . 

如 9.8 节 所 指出 的 ，Rosenbrock 的 旋转 方向 法 Sm 是 为 有 的 
束 和 无 约束 极 小 化 问题 这 二 者 导 出 的 . 为 说 明 有 约束 的 形式 , 仍 
设 我 们 有 《13.1) 和 (13.2) 所 定义 的 mw 个 约束 (m 宇 n) ,包括 最 式 的 
MERK, 我们 定义 与 (13.1) 相 联系 的 “边界 带 ” 如 下 , 如 果 


DL<w<h+ e(uy—b), (13.4) 
就 说 分 量 Gsl, e, m) AEP P. A, 如 果 
bj C= u — elti h), (13.5) 


则 说 w 在 上 边界 带 中 ， 其 中 e 是 一 个 小 常数 ， 对 于 下 边界 带 ， 我 

们 定义 侵入 的 相对 宽度 为 

_ b+e(uj—h) -r 
sly) ” 


ny 


(13.6) 
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对 上 边界 带 ,类 似 的 表达 式 为 
EJ 

elu; — bp “TR 

以 了 表示 用 这 方法 算得 的 目标 函数 了 在 能 行 点 ( 即 满 足 
(13.1) 的 点 ) 上 的 当前 最 小 值 ， 以 了 "表示 了 在 不 属于 边界 带 的 能 
行 点 上 的 当前 最 小 值 ， 显 然 , f* 之 FA， 设 给 定 一 个 不 在 任何 边界 
PAB ws, RES SS SER. RAR BA AK BE 
HUR, KEER KS AZ ET ME, 令 

2 记 按照 无 约束 方法 需要 求 了 值 的 下 一 个 点 , 则 

1 如果 科 非 能 行 , 则 称 向 的 移动 是 失败 , 按 无 约束 形式 继 
SFR, 

2. Wo 能 行 且 不 在 任何 边界 带 中 ， 则 遵照 无 约束 形式 去 
做 

83. 如果 了 在 某 边 界 带 中 , 则 按 下 面 方式 修正 函数 值 F(2)， 设 
少 沙 在 边界 带 和 GA i, 按 下 式 将 Fz) 改 取 
为 f(a). 

F@=f@ —(F@ —f+] [8 — 40,27 +20), 
(13.8) 

Mil 使 之 等 于 zx 的 落 在 边界 带 中 的 第 二 个 分 量 的 足 标 ， 在 
(13.8) 的 右边 , 利用 由 以 前 的 了 得 到 的 了 (%) 重新 计算 了 对 所 有 
这 样 的 J 重复 进行 . 

对 情形 (8) 提 出 的 程序 是 基于 这 样 的 假定 如 果 无 约束 算法 时 
致 搜索 进入 边界 区 ， 那 末 这 函数 的 无 约束 极 小 值 点 可 能 在 一 个 非 
能 行 点 上 达到 .为 了 使 搜索 限制 在 边界 带 , 就 在 一 个 能 行 点 上 构 
造 一 个 人 为 的 极 小 值 点 , 这 构造 利用 了 上 面 指 出 的 函数 修正 ， 假 
ee Se A he i ei 

， 从 (18.8) 可 看 到 ,对 ”=0, 有 (x) 一 了 (7), 对 1, 即 在 能 行 
ww、 了 (2) = Fr)， 这 样 ， 函 数值 被 人 为 地 抬 高 以 产 
牛 记 希 望 的 将 水 ， EER, Rosenbrock 方法 网 这 一 背景 极 相 似 于 前 
章 讨论 的 内 部 惩罚 函数 法 的 基本 思想 . 


joe (13.7) 
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Davies, Swann. 和 Campey Xi The #77 IER TF 
到 有 约束 问题 . 但 是 , 类似 且 更 有 效 的 方法 将 在 于 一 节 中 给 出 ， 
所 以 在 这 里 不 讨论 这 方法 了 ， 有 兴趣 的 读者 可 参看 Davies” 和 和 
Davies, Swann‘), 

总 之 , 无 约束 极 小 化 的 经 验方 法 对 有 约束 问题 的 扩充 , 是 十 分 
可 靠 但 比较 缓慢 的 方法 , 因此 只 在 导数 的 计算 不 合用 时 , 才 值 得 推 
荐 ， 在 近年 的 文献 中 , 关于 有 约束 的 经 验方 法 很 少 出 现 新 思想 . 
对 司 这 种 方法 可 以 与 惩罚 函数 法 或 下 面 将 介绍 的 某 些 方法 相 竞 
争 , 还 有 很 多 工作 要 做 . 


13.2 线性 约束 的 梯度 投影 算法 


最 速 下 降 法 是 无 约束 极 小 化 的 基本 的 数值 方法 之 一 ， 但 我 们 
已 经 看 到 , 它 不 是 最 有 效 的 。 Rosentsa s9 把 它 扩充 到 约束 问题 , 可 
认为 这 是 建立 梯度 投影 算法 这 类 方法 过 程 中 的 基本 工作 之 一 ， 读 
者 从 第 10 章 与 第 11 章 已 经 清楚 ,对 于 无 约束 极 小 化 , SE RE 
法 或 变 尺度 算法 要 比 最 速 下 降 法 远 为 有 效 ， 所 以 , E Be A 
慢 的 最 速 下 降 法 ,我们 将 讲述 Goldfarb 的 更 近期 的 工作 (也 见 
Goldfarb, Lapidus"), 238 (7 Rosen 的 工作 , 但 优点 是 它 能 作 
为 共 轩 梯度 法 和 变 尺度 法 对 线性 约束 的 扩充 . 


考虑 线性 约束 的 非 线 性 规划 问题 
(LCP) min f (a) (13.9) 
受 限 制 于 
$ ayt —b=0, E ae (13.10) 
È aye; —b,>0, imti g. (13.11) 


这 里 , 令 是 满足 (13.10) 和 (13.11) 的 点 z 之 集 , 并 假定 了 是 定 
义 在 包含 五 的 中 子 集 S LAE A MMA, Bay 和 b 是 
给 定 的 , 且 假 定 


2: (@y)*=1, i=l, +, p, (13.12) 
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a= (aua, >, Ga)", i=l, +, p, (13.13) 
则 从 《33 .12) 推 得 
(@)fai=1, i=l, +, p, (13.14) 
BD fej ek of 有 单位 长 度 . 


用 产 记 由 第 台 个 约束 定义 的 超 平 面 , 即 
Ey={aiae R", (4) r=b}, i=l, =, p, (13.15) 
并 用 L 记 由 不 等 式 约束 定义 的 闭 半 空间 , 即 
Li= {a:2€ R", (a) Trab, t=mt+i, «+, p, (13.16) 
则 能 行 集 A 由 下 式 给 出 : 


X= (LINC CB). (13.17) 


注意 , Wo CEFR EL, BX ismet, e, p, 它们 是 指 
AZN LG, BURA ABATE. 

一 组 超 平面 称 为 线性 独立 的 ， 如 果 对 应 的 向 量 a! CL Bp OK 
向 量 ) 是 线性 独立 的 ，g 个 线性 独立 的 超 平 面 之 交 是 RB" 中 一 个 Gj 
射 集 ， 记 为 FY， 平行 于 F W ng 维 子 空间 ( 即 包 含 原点 的 仿 身 
RORA M, 如 果 Fr 本 身 是 子 空间 , WAR P= Mt AE 
A a BEER. BERU U 张 成 的 g 维 子 空间 记 为 Me, 这 里 
对 应 于 Fe， 因为 可 以 表示 为 于 ee 的 嘉和 ,所 以 每 个 向 量 
oE 可 写 咸 wut+v, Hd ve MY, ve MY, T (24), 

我 们 来 求 向 量 @ CR’ 到 Me 和 你 的 投影 映射 . 用 de ia xg 
阵 ， 其 列 是 4 个 线性 独立 向 量 %， 这 里 4 属于 指标 集 To， Te 是 
万 = { 2，…, p} 的 一 个 子 集 ， 不 失 一 般 性 , 假定 

Ta= {1, 2, «+, Q. (13.18) 

Hig Aa 有 秩 G, M AQA AE. G a= Ca, , oa)”, 向 量 
vE 可 表示 为 


v=Q Aaa, (13.19) 
而 对 任意 eE R", AH Aru=0, 得 
Atg = ATu+ Aly = ATQ Aa, (13.20) 


因此 有 
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a= (ATQ ADATE, (13.21) 


y—Q-1Ag( ATQ ANT AZE, (13.22) 
EL n GARE Pah 

Pa =Q AC ATQTIA N LAT, (13.23) 

则 对 任意 vE Me, t 
Pao =— QA ATQ-1 A ATQ Ara (13.24) 
=Q Aav, (13.25) 

mHE RE uE M’, 有 
Pu- Q-1.4q( AIQ-1 Ag) 1 ATU =0, (18 .26) 

eke, 有 是 将 BB" acid Ms ERRER EDL, 由 式 

| P,~I-P, (18.27) 


ELKI BB 已 A Mo. 在 Q@= 工 的 
特殊 情况 , 子 空间 Me Ae 互 为 正 交 补 , 于 是 Po 和 Ps 是 对 称 正 
0 RE BE RC RE DORR, 
B= Aq ATAT A? = (AHAT, (13.28) 
其 中 At FE Ag 的 广义 道 . 

例 13.2.1 

为 说 明 前 面 的 概念 , 令 -I 8 

瑟 一 | :ze 到 ~Za-fatg—ol, (13.29) 


则 
z . M=| oie BY, ~3m-Z2,-0l, (13.30) 


和 -|s:wE RP, ame tal, bye (18.31) 


3 
我 人 有 at~(—2, 2) 


“5 

-T5 
afs rj (13.33 
aly | Spee 


~ 813 


所 以 


a 1f 16-12 aap 
25 | —12 gy Os 
MER «= (2, 1)", Hy 
Pepe 人 Yem 
Pg= ($, -5 ) em 


13.1 到 正 交 子 室 间 中 的 投影 


在 计算 过 程 中 , 必须 对 不 同 的 子 空 间 求 得 投影 矩阵 , 这 些 子 空 
局 平行 于 超 平面 的 交集 且 对 应 于 某 个 当前 的 积极 不 等 式 约束 集 
(一 个 不 等 式 约束 g(z) 20 称 为 在 到 是 积极 的 , 如 果 9(2) —0), 每 
个 新 的 子 空间 同 原 先 子 空间 的 差异 或 者 是 从 交集 中 丢掉 一 个 积极 
约束 ,或 者 是 增加 一 个 新 的 积极 约束 . 对 于 这 些 计 算 , 重要 的 是 建 
立 一 个 递 推 关系 式 , 使 得 (AA) 可 以 容易 地 从 (AT 140) tt 

得 ,并且 反 过 来 也 是 一 样 ， 设 9 阶 非 异 方 阵 (4544) 分 类 为 
(Apo =] 到 a 

B; B; 

其 中 Bi Ba Ba, Bs 分 别 蚌 (gq 一 1)x(qg 一 了 DD、(9 一 人)x1、1x(g 一 1)、 
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(13.35) 


Lxi, Rot Bo 个 (最 后 一 个 ) 向 量 , 它 相应 于 超 平面 La 
at 从 当前 的 矩阵 d 中 去 摔 时 ， 我 们 可 以 按照 下 式 计算 g 一 i 
Bar (Apdo 1) 
(Aj-1Ag-1)* = Bi — Ba Br" Bs, (18 .36) 

如 果 不 是 re， 而 是 超 平面 A< 被 去 掉 ， 同 样 的 公式 可 以 利 
用 ,只 要 在 应 用 (13.36) 之 前 交换 CAG Aa) 的 第 于 行 与 列 和 第 ? 
行 与 列 . 

增加 相应 于 超 平面 za 的 向 量 a， 从 CAG Ag 1) 7 计算 
(ATA) :这 一 相反 的 过 程 如 下 所 述 : 计算 


ra_i™= (A 1Aa_1) (Aga), (183.87) 
Pa_ia = ai Aafaa. (13.38) 
WA 
Ay = (Pay (Py_12%), (13.39) 
By = (AG Aq-1) HAT ro_ 1rd 1, (13.40) 
Bs= B} = — A5 rea, (13.41) 
B= Ag’ >, (43.42) 


其 中 By>O 是 由 于 Pear t0, ERCA AD 就 由 (18.85) 纵 出 . 
另 一 有 用 的 关系 式 是 投影 矩阵 的 递 推 公 式 
rp Si, cn 
此 外 ,可 以 证 明 , SE IA eR", 
| Peo < | Pewl < jei, (13.44) 
即 投影 不 增加 向 量 的 长 度 . 
Bartels, Golub, Saunders ™ #8 iH {4% oe iE CATA) OR 5 
一 过 程 , 它 利 用 Householder JH, 这 个 结果 在 数值 上 是 更 稳 
定 的 过 程 ,但 有 时 要 花费 更 长 的 计算 . 


例 18.2.2 
RAWA R 中 的 等 式 约束 
ETETE -4, (13.45) 


2 1 > 
gaty Mts Ta 3? 


我 们 项 望 计算 投影 矩阵 Pl 和 了 了， 从 (18.43) 得 到 


1 iT 
Pim Pa Foe, (13.47) 


T 
现在 令 PeT, d= (gs =p g) ,所 以 


3? 
5 4 2 
工 
可 4 5-2], 
2-2 8. 


1 0 0 4—4 一 2 
Pi-| 0 1 o |-4 —4 4 2j- 
001 Lee 2 1 


(13.46) 


(13.48) 
meda A 
类 似 地 ，q = 3? 2? =) 以 及 

Ps= P,— PsP)" P: 《13 .49) 


(Fy Pia ? 


将 数值 代入 (13.49), 我 们 得 到 


(5 4 2 4 2 47 1 2-2 
P,- 工 4 sp —2l-Lle 1 el-t} 2 4-4 
aj 9 9 : 
2-2 8 424 ae ee A 


(13.50) 
1)”, Wy 


At i 
9 9 
Pye~ a 和 Pæ- 2 (13.51) 
8 _2 
9 9 
读者 容易 验证 Pic WI A PoE M?, 其 中 
Mi = {0:2 R, $a ET (13 .52) 


Mi MiN ia:eE Feit Zot Sx, (13.53) 


gis 


EH lel- vF, (Poll 和 1Pari- 二， 这样, 08.44) ah 
w. I fi 

也 可 以 证 明 , 线性 相关 的 超 半 面 容易 借助 递 推 公式 (13.48) 来 
ZMW, P, RERI I, Palah 一 0, 则 相应 于 a! 的 约束 就 可 
以 从 问题 LOP) 中 去 掉 而 不 影响 其 解 ， 因 为 它 线性 柯 关于 茶 些 其 
WR. 

现在 介绍 Goldfarb 共 斩 梯度 投影 算法 这 方法 将 给 出 证 不 
予 证 明 。 关于 进一步 的 细节 和 证 明 , 有 兴趣 的 读者 可 参考 夺 和 和 和 
[16]. 

设 给 定 一 个 初始 能 行 点 OP EX, 显然, 如 果 出 现 等 式 约束 , 那 
RÄ LEL, i=1, e, m, FR, 对 某 gem, SEF, RR- j 
性 可 假定 Ag= (a, 0o, a™, 0e, a). FER BE TP MEER 
称 阵 Oi. 用 下 面 递 推 关系 式 计算 Ig: 

0 0 Lea ECs "HI? 
H cee H 4-1 — 2 cai) ns 
其 中 相应 于 等 式 约束 (18.10) 的 of =I, +, m) 首先 加 入 ， 令 
5 一 0, 1, ---, EB k RARP, 执行 如 下 步骤 : 

1. BE PET Mo, Vio") 和 五 5 计算 五 Ye， 对 

ql 计算 


, i=l, =, g, (18.54) 


Me CATAg) tA, f), (13.55) 
车 x DERRATE i PPSAARH BFA Lp, Ml S Ao, 
+; 
HVF =0 (13.56) 
iL 
R>0, =m], *, p, (13.57) 
则 a 潢 足 CLOP) 中 最 优 性 的 一 阶 必要 条 件 ,算法 就 结束 . 
2. 车 (13.56) 和 和 (13,57) 不 同时 满足 , 则 或 者 
| HEV F(a") | >mux{0, -4 Mded*|, (13.58) 
或 者 


alg 


i 


| FEES (as)! < — 3 Ahi, M0, (13.59) 
Hop bade CATA) TOS 6 PR ATOR, A ite, BE 
Moga” <Mbn”, t=m+ i, s Q (13 .60) 


注意 每 个 bo>0 4 (18.589) 成 立 , 则 进入 步骤 3， 否 则 从 积 
极 约束 集中 去 外 第 9 个 约束 ， 如 早先 所 述 ， 从 5449) 于 计算 
(4A2-144_1) "1!， 并 得 到 

Pa-15 I — Agal At gg) AD: (13.61) 
然后 , 计算 

Hi, 一 Hy Lt. (13.62) 
今 g=g 一 1, BEM A, 

3. G Mlo HIF) (注意 ,在 第 二 章 中 我 们 用 VPC) 
RU 开 的 转 置 来 定义 "1 为 了 简化 记号 ， 在 描述 这 个 算法 时 省 
KT RES). 计算 B+ CRRA oot 而 不 违反 第 6 个 当前 的 
非 积极 约束 的 最 大 步 长 ， 


7 P (a)? a — Bi 
- (a) tl O? 


Bro, 沿 着 2° 在 能 行 域 中 能 取 的 最 大 步 长 为 
2 一 min{B : 8Y >0, 4 一 十 1 +, ph 《13.64) 
进行 一 个 线性 搜索 求 an, Sara SA EE 
CE 
取 极 小 ， 有 可 能 anto, ARER FFE Ty EAL CRAY, 
MR ox 三 十 co, 令 


i=qg+1, =, p (18.63) 


s | wht — okt ak ght (13.65) 
Hit VO). 

4, MB ox 过 BE， 则 进入 步骤 65， 否则 把 相应 于 Bir 的 约 

WE Ct WE Hg +l) FARR) MAR AR), 并 计算 


Fett = Fre ae Hg (13.66) 


4 g=qt+1 fi s-k+1, MAHRI, 


ai7 


5， 丰 现在 的 情形 , 积极 约束 集 保持 不 变 , 用 第 1L Be AR LK 
秩 2 变 尺度 公式 , 比如 BFS 公式 ,修改 Hr 
H= myfl HTHS ytt je: pE p ‘sated ia 


Cp yr) Toy Text (pti) TY k+l 


| iba Gy ahi oe HE Hiy K+ petty 


如 以 前 一 样 , 其 中 
pei tn giti gk yh = VF (eo) -Vf (®©, 
&k=k+i, 回 到 步 又 工 . 
这 就 完成 了 算法 的 描述 . 
$i 18.2.3 
考虑 问题 
min f (2) = (a1)? +4(0s)? (13.68) 
受 限 制 于 
3 4 
K OT War >=. (13.69) 


我 们 用 求解 这 个 二 次 规划 来 说 明 Goldfarb 算法 ， 设 a°— (0, 
5) ,其 函数 值 .Jo ) 一 100, 我 们 选取 


，[1 0 
m-l 。 A (13.70) 
目标 函数 的 梯度 为 
VF (a) -( si l (13.71) 
$a 
在 吧 处 有 
vice) (| p A (13.172) 


AL 以 严格 不 等 式 满 足 (13.69), 所 以 各 =0 H | OVE (@) | = 40, 
我 们 进入 步 又 3, 得 到 
0 
= — HVF (2°) = | w ), (13.73) 
并 计算 在 这 方向 上 不 违反 约束 (13.69) 所 能 移动 的 最 大 上 距离. 
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pie — 8/8) (0) + (4/8) (B)— 13/3) 
i (8/5) (0) + (4/5) (—40) 160° 
(13.74) 


中 进行 线性 


读者 容易 验证 , WAA NAERA 0<aa< 
搜索 , TI ai= Ble 60， 并 且 


0 
N A 7 "i 


T 
160 


f(@)= . ARAB. ee 由 (13.66) 计 算 
1, Ho na (a)? EG 
Hi- HY- A (13.76) 
1f 16 -12 ee 
-i a d (18.77) 


XP ql, k=1, HMAF R1 以 作 最 优 性 的 检验 .我 们 有 


(ATA =1, Vf =O, 26)", a= 20, 


4 
时 


FV f(a) = A (13.78) 
EJ 
这 样 , ARERR. EN |H EDI- Ë 9 13.68) 满足 ， 


下 一 个 搜索 方向 就 和 人 负 梯 度 在 相应 于 约束 的 超 平 面 上 的 投影 相 重 
合 , 即 
312 
| 25 
= — Hi Vf (at) = . (13.79) 


因为 没有 其 他 约束 , 我 们 有 局 ,x = +00, 进行 一 个 线性 搜索 可 求 
a 2 ,所 以 
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“25 3 
-( 上 (13.80 


VFD -(5 | (13.81) 


ERSE) =13， 可 以 看 到 这 方法 是 下 降 的 .现在 用 (13.67) 来 
修改 五 it， 首先 计算 


E : | 
2 (5)-(s)-( 8} (18.82) 
和 \~4 
, (8\ ( %\ f 6 
at ares ce 


#5 (13.77), (13.82) #1 (18.83) RA (13.67), 产生 


16 一 12 
Hr| is a (13.84) 
结果 是 
16 —121/6\ /0 
myrtle als }-(o}: (13.35) 
{s (3) (6) +(4) (8) -10. (13.86) 


A 43.2 Goldfarb 的 算法 


: p90 


点 ot = (3, 1)" 满足 (13.56) 和 18 .的 ) 所 以 它 是 最 优 的 ,最 优化 
的 行程 在 图 13.2 中 表明 J 

Goldfarb 证 明 , 前 面 的 算法 一 般 是 一 个 下 降 方法 ,换言之 ， 
在 每 次 选 代 时 , 目标 函数 值 是 减少 的 ， 最 优 性 条 件 也 可 用 和 矩阵 Ha 
米吉 述 ， 这 条 件 在 下 述 定理 中 给 出 . 

定理 18.1 | 

Wf PEAT AR, wo CX 是 位 于 Fr 中 的 全 的 边 
界 点 , FY 是 由 约束 (13.10) 和 (133. 入 ) 所 定义 的 g 个 线性 独立 超 平 
面 之 交 ， 如 果 w' 是 问题 (LCP) 的 局 部 最 优点 , 那 末 

Ht Vf (ae) =0, (13.87) 

AQ2O0, d=m+h, ©, q, (13 .88) 

at= (AT, oo, A)" = (AT Ag) AAP 0f(@"), (13.89) 

如 果 还 是 目的 ， 那 林 (13.87) 至 (13.89) 是 关于 整体 约束 极 小 值 
点 的 充分 条 件 . 

阅读 这 定理 前 证 时 可 以 帮助 读者 理解 上 面 给 出 的 算法 步 
WE SEF UE BH We BE RES RADA I fe HW, 见 Rosen [33] 和 
Goldfarb [14], 这 里 不 能 涉及 了 . 

使 用 Goldfarb 方法 的 数值 经 验 是 良好 的 ,但 对 于 这 算法 的 上 
RER, 即使 在 中 性 假定 下 , 也 不 能 在 理论 上 保证 收敛 到 (LOCP) 的 
最 优 解 ，Rosen 的 梯度 投影 法 的 某 种 更 复杂 的 形式 由 Polak’? 
提出 , 他 证 明了 在 了 是 凸 的 且 满 足 其 些 正 刚性 条 件 时 , 收敛 到 最 优 
Wi, 

437 (LCP) 中 目标 函数 了 是 严格 凸 的 二 次 函数 且 只 有 等 式 约 
W (18.10) 的 情形 , 可 以 对 梯度 投影 法 得 到 一 个 有 趣 的 理解 。 如 
Fleteher" FSFE, 令 


其 中 


fx) ated aFQe, (13.90) 


令 dw 是 相应 于 约束 (13.10) 的 wx on EE 这 样 一 个 二 次 规划 的 
TE TCI ao” 和 相应 的 Lagrange RFA 由 下 列 线性 方程 组 的 解 给 
Hh: 
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Q 一 4 | /2 c 
br Kaji- A 


注意 ， 
| Q —An]: 
—A, 0 | 
QQ iA AQTA ARQ QAAN Am) > 
j | — (AmQ TAn An — (An An) > | 
(13.92) 
-| Ha — An | (13.98) 
~An (AQTA) Y’ 
其 中 Ha 和 An 只 是 一 个 缩写 , 我 们 可 以 把 413 91) F 
w= a HnVf Ct), (18.94) 
AY = AVE (a), (13.95) 
其 中 心 是 任意 能 行 点 


我 们 也 可 以 写 
FD, = -Q An ARQ An) An, (13.96) 
并 且 , 利用 (13.23) 和 (18.27) 我 们 有 
五 一 了 QI. (13.97) 
所 以 AY, 可 以 看 作 是 了 的 投影 Hesse 逆 阵 ， 令 = 了 ,我们 得 到 
A= Pn, ABH SA) Rosen 的 梯度 投影 法 . 
在 一 般 非 线性 函数 的 情形 ，(13.94) 不 是 精确 的 ， 所 以 要 求 一 
个 迭代 过 程 以 求 得 最 优 值 点 2*, 例如 用 选 代 
kts =w" — at, WIVES (ae), (13.98) 
其 中 Ay 是 近似 投影 Hesse ME, g Goldfarb 方法 那样 每 次 迭代 
时 要 修改 之 . 
FEF (13.96) 和 (13.98) 的 梯度 投影 法 由 Murtagh , Sargent?” 
导出 , 它 利用 搜索 方向 
srl — TUS (a) 
= -- [HE — HT? An ART Am) CALA gl VE (a), 
(18.99) 
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其 中 Hi 是 Hesse WORE 4 RTUE. ie REE BeBe eR 1 BEE Hi 
阵 来 进行 ( 兄 第 11 2). 类 似 于 Goldfarb 方法 ,Murtagh-Sargent 
算法 也 利用 一 个 “积极 约束 集 策略 ”一 一 在 送 代 中 ， 当 从 一 个 能 行 
点 移动 到 另 一 能 行 点 时 ， 如 必要 的 话 增加 或 丢掉 约束 .。 Goldfarb 
和 Murtagh Sargent 方法 都 具有 考虑 到 约 东 而 适当 修正 了 的 二 
次 终 绪 性质， 对 于 Goldfarb 方法 ， 我 们 有 下 面 的 结果 ， 它 是 属于 
Powell 的 [2% 281 

定理 13.2 

如 果 利 用 Goldfarb FERRME -TRA n REE E Q 
次 隐 数 了 在 线性 约束 (13.10) 和 (13.11) 下 的 极 小 化 问题 ， 并 且 如 
果 在 计算 过 程 中 积极 约束 集 改 变 了 7 次 ， 那 末了 的 精确 极 小 值 点 
可 以 通过 不 超过 m% 十 ?1 次 精确 的 线性 搜索 求 得 . 

Powell” 7EBY, Murtagh-Sargent 方法 可 看 作 是 广义 Gold- 
farb 算法 的 一 种 特殊 情形 且 反 之 亦 然 , 从 而 推广 了 这 定理 ， 设 
(13.99) 中 的 矩阵 H, 由 下 式 修改 . 

A, = ABS +. BX (uT, (13.100) 
其 中 APS 如 人 (11.170) 给 出 ,是 利用 Broyden-Fleteher-Shanno 的 
Bi Newton 法 的 收 改 公式 得 到 的 , w 由 (11.169) 定义 . 参数 8* 
是 以 互补 的 方式 联系 于 (lt.167) 中 出 现 的 oh, 这 是 因为 对 于 BES 
方法 8*==0, 而 对 于 DFP 方法 of 一 0. 其 次 设 HA, 由 (13.100) 给 
出 , 并 令 
Aji = Hx— HyAdolA? Hydo) +A; Hy. (13.101) 
Al 为 Hgda=0, a Ht 就 是 Goldfarb FEW —-TPABHEE Gi 
E. HEH Murtagh-Sargent 3070 FIER PAE EE 和 
的 二 次 函数 的 极 小 化 问题 ， 利 用 具有 任意 G, @ CR, Aske 
Ho 的 一 般 修 改 公式 (13.100)， 参 数 A” 和 ox ( 步 长 ) 在 每 次 迭代 
时 任意 取 .现存 用 Goldfarb 方 法 ， 从 同样 的 x*E BR" 出发， 五? M 
(18.101) 给 出 , 其 中 a, 在 每 次 迷 代 时 用 同样 的 值 , 并 且 
Hk = AYP Prev ay)? (13.102) 
dirp B* x} BE 的 关系 为 
RR? 


À k 


(13.103) 
HP® th BES 方法 的 修改 公式 得 到 。 可 以 证 明 , 这 两 个 方法 产 
生 同 样 的 点 烈 。 增加 或 丢掉 约束 并 不 影响 产生 同样 的 点 , 因此 ， 
Murtagh-Sargont 方法 利 有 关 方 法 有 定理 13.,2 所 述 的 二 次 终结 
性 质 . 
13.3 一 个 二 次 规划 算法 
下 一 步 讨 论 求解 线性 约束 问题 的 投影 梯度 法 的 一 种 特殊 情 
%. 设 要 极 小 化 的 目标 函数 是 一 个 严格 凸 的 二 次 函数 ， 约 训 由 线 
性 等 式 和 不 等 式 给 出 ， 为 了 简单 起 见 ,我 们 仅 考 虑 不 等 式 约 束 , A 
为 它们 在 积极 约束 集 策 略 中 是 重要 的 , 如 果 等 式 约束 也 出 现 , 读者 
容易 修改 有 关 结 果 ， 叙述 方式 将 按照 Fletcher” 和 Goldfarb“ 
的 著作 , 前 者 更 -- 般 些 , 它 也 能 放 于 非 本 二 次 函数 .关于 更 一 般 方 
法 的 详细 叙述 以 及 和 其 他 求解 二 次 规划 的 现 丰 方 法 的 比较 ， 读 者 
可 参考 [9]， 二 次 规划 是 在 第 7 章 提 到 的 ,除了 在 应 用 方面 有 用 之 
外 , 它 还 作为 这 里 和 下 一 章 中 斤 述 的 相当 一 些 算法 中 的 子 回 题 . 
考虑 问题 
(SCQP) min f(e) = ateti x" Qa (13.104) 
受 限 制 于 
AT > b, (13.105) 
Ep ce R, ER", CEUX HAE EH, 4 是 nxm 实 矩阵 ， 
bE BR", 我们 将 道 过 产生 一 个 二 次 规划 的 序列 来 求解 (SQP), 30 
些 一 次 规划 是 受 那些 代表 积极 约束 的 等 式 所 约束 的 ， 这 序列 的 组 
成 者 的 差别 仅 在 于 加 到 积极 约束 集 或 从 积极 约 来 集中 丢掉 的 那些 
HR. 这 样 的 一 个 等 式 约束 问题 写成 
(ECQP) min f(z) ~ateet+ 5 "Qu (13.106) 
受 限 制 于 
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Af a= bo, (13.107) 
其 中 为 简单 计 ,m xz 阵 4 是 由 到 44 的 前 9 列 得 到 的 , 7 - C81,…， 
ba)”, RIRE A RE g. 这 问题 的 解 利 相应 的 Lagrange 3 
Fy (18.94) #18 .95 明显 地 给 出 , 即 
a" =a" — FAVE (a), (1.108) 
at= AVS (a), (13.109) 
其 中 a? EW (13.107) Woe ak, E 
His IQA AQAD AQ, (13.110) 
A= (Ai RA A R, (13.111) 
RAER RR ERE 五 ;、 ds 的 递 推 关系 式 .。 首先 假设 , 我 
们 增加 第 gq 十 1 个 约束 到 积极 集中 ， 这 步骤 相当 于 把 we 和 (4 的 第 
4 十 1 列 ) 加 到 A, F, m 
ba I ee 
AŽ — Ajai astyT XT 
salo E ol 1 hT 
(13.113) 
然后 假设 要 从 积极 集中 持 掉 相应 于 轨 的 约束 令 《o") 是 
A RB i. 则 有 关系 式 
msp Er (13.114) 


Aga | ge ART 
0, ++, 0 


(13.112) 


— 


1 a at 
如 果 任 何 约 束 , 比如 说 第 只 <9) PAK, 要 被 丢掉 , 这 些 公式 仍 可 
H, 只 更 在 使 用 (13 .114) 和 (13.115) 之 前 将 A IE p 列 和 第 9 列 
交换， 注意 , 在 m 个 积极 约束 时 ， 鼠 := 0 (ER) 以 及 A= At, 
前 面 两 类 矩阵 修正 规则 可 以 组 合成 所 请 交换 公式 ， 在 这 公式 
中 44 的 第 g 列 由 另 一 个 当前 不 在 A 中 的 向 量 ， 比 如 说 at, EAR 
a 作为 交换 运算 结果 ， 从 Him 4 得 到 的 新 矩阵 记 为 HY 和 
Ag, 则 | 


(13.115) 


sen 
3 


ADA 


: r * gént ; 
Yeoh ee as ae, (18.116) 


At = At (Aga — ew AGC au" ， (13.117) 
y y 
其 中 
u= a (al)? H a — Hra A) at, (13.118) 
w= Hi (y Qa taa at, (13.119) 
y= (CaTa Ca) Qa (a) Hiat, (13.120) 
e= (0, =, 0, YEE., (13.121) 


这 样 的 交换 公式 在 @ 是 病态 或 H, 接近 奇异 时 是 很 有 用 的 ， 
这 时 虽然 最 优 解 是 有 定义 的 , 但 在 计算 中 算法 可 能 陷入 数值 困难 . 
Fletcher” 证 明 , 可 以 利用 一 个 在 增加 、 委 掉 和 交换 约束 的 诸 修 正 
公式 中 作 选 择 的 有 效 的 总 策略 , 以 避免 数值 困难 ,而 且 算 法 也 可 以 
扩充 到 包含 半 定 或 不 定 阵 @ 的 问题 . 

为 了 开始 这 算法 , BOR-METR. 这 样 一 点 可 以 采用 下 一 
节 将 说 明 的 线性 规划 来 求 得 ,或 者 采用 其 他 方法 , dt Fletcher 的 过 
程 “， 在 这 过 程 中 , n 个 积极 约束 的 交集 中 一 点 (如 果 存 在 ) 被 定 
出 , 并且 筑 得 4s= 4 ,五 *=0， 这 算法 的 步 又 现在 可 叙述 为 : 

L. 给 定位 于 9 个 积极 约束 前 交集 中 的 一 个 能 行 点 只, 计算 
Hy, Ag, HVS), & k=o, 

2. Hi Hf. t0, MRED MR 4, 

3. 2420, 则 计算 att -tagt 和 VF at), 其 中 


azy =min{1, akts (18 .122) 
s iT kb 7 . 
ayer mind WES : (al) Ta*#*<0, i= gtl, e, m}, 
(13 .123) 


为 简单 起 见 ， 设 上 述 极 小 在 和 = qt 1 时 达到 .如 果 acl, A 
9 十 1 个 约束 加 到 积极 集中 ,用 (13.112) 和 (13.113) 修 正 He, 4, 
Sk=k+lAg=grl, ABA R 2; iE amil, $ k=ktl, 
i BY AE RR 4. 

4. 计算 (近似 的 ) Lagrange 乘 子 向 量 
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= AVE (a*), (13.124) 
和 它 的 最 小 元 素 
=min{AM:i=1, +, g}. (13 ,125) 


为 简单 起 见 设 7=g， 如 果 AKO, 就 停止 ; 一 个 最 优 解 达 到 了 ， 恕 
FR M<O, 从 积极 集中 丢掉 第 9 个 约束 并 按照 (13.11 和 多 和 (13.115) 
修正 Hy, 4s， 令 g~9 一 1, MAHR 2, 
例 13.8.1 
我 们 用 前 面 的 算法 去 解 一 个 二 次 规划 问题 , CR A Beale”, 
给 出 如 下 : 
min 六 (cz) = 9 — 8r — Gary — dwa + 2a)? +2 (05)? 


-+ (ag)? + 2a 29-+ wzw (13 .126) 
受 限 制 于 
(a*)Ta= ay >0, (13.127) 
(a°) Tw = “a 20, (13.128) 
(a°)?a= a0, (13.129) 
(af )Te = — gı — g — T> — 8, (13.130) 


BRAT e= (0, 0, 0) HR. BM, 前面 三 个 约束 是 积极 的 ， 推 
得 H3=0, A3=Az'=I #i Vf) =(—8, —6, —4)", 我 们 有 


0 
gia: -re 0 ) (18.131) 
0 
并 进 到 步骤 4. 
计算 Lagrange HEF, HE BB) A°=-(-—8, —6, 一 4 Faf= 
min{A’}. 这样 , ABRBRPARA- TAR, BAr=1, 我 们 在 
A483 中 对 换 第 1 行 和 第 3 行 ,并 得 到 一 个 新 矩阵 
0 0 1 
-| 010 
i 1 0 0 
用 (13.114) 和 (13.115), 计算 得 


À (13.182) 
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1 1 
ae [col 
mielo o of a] ， ， (48.183) 

0 0 0 ce ae 
并 回 到 步骤 2、 其 次 ,我 们 计算 

2 
zt- — Hivf (a) d 0 | (13.134) 

O, 


HH +0, 我 们 进 到 步 又 383， 因为 

hana <0 和 和 Kf 24, (a) Tz >0, 
和 aa bh 3 
Oy 一 (atta 4 一 xo, “a=, (18-180) 
pH HE et- (2, 0, 0), VFD = (0, —2, 0)", HAR A, 
我 们 计算 


-4 oil o ‘ 

as —2 |= ; (13.136) 
» 
= 1 0 oJ 、 7 


WA <0, MBH oR ieh AHS 2 4 ey, FR Re (13.114) 和 
(13.115), 有 


1 i 
oe f 2 1 
His = L a} 4 -[-4. F 1], (43.187) 
0 00 
问 到 步 桑 2, 计算 i 
a 
Z= — Hiv (a) — 2 | (13.138) 
3 
0 


RAO, 继续 到 步 3， 我 们 发 现 对 了 -了 4, (aby <0 
228 


a= min {6, 3}o-1, az=1, (13.139) 


所 以 
a— (2, E 0) Al Vila") = (9, Q, T Ap 
计算 新 的 Lagrange T, 我 们 有 求 得 
A= ASV F(a") = -£ <0, (13.140) 
从 积极 集中 丢掉 第 8 PU. 修正 AG 和 AG, 我 们 得 到 
1 -5 -1 
Hi= -4 5 =a (13.141) 
1 3 
Se We 
A 当然 是 空 集 ， 回 到 步骤 2, 我 们 计算 
2 
TR 
P= —Hivf(a)—-| 1], (13,142) 
3 
1 
广 步 骤 3 中 , 得 到 
a 2. 
3 5 » 
所 以 


eEAD a yore 2. 


因为 点 相应 于 第 和 4 个 约束 ,我们 把 它 加 到 ( 空 的 ) 积 极 集中 去 ， 按 

照 (13.112) 和 (13.118) 得 到 新 矩阵 如 下 : 

= EN 

Hf -3 5 a| 4i-[3, -5> -3]. 
(13.143) 

.下 一 个 搜索 方向 为 
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—8 
A= — Hivf(2*)= 4 E | (13.144) 
从 (18.122) 和 (13.123) 我 们 求 得 a1, 所 以 


EREET 


即 最 优 解 已 经 求 到 . J 

如 果 二 次 函数 的 和 矩阵 Q 不 是 正定 的 ，Eleteher” 已 经 导出 了 
特殊 的 步骤 ， 以 保证 他 的 算法 对 于 一 般 二 次 规划 问题 的 可 用 竹 ， 
这 方法 的 某 些 改进 在 [30] 中 也 可 找到 . 


13.4 能 行 方向 法 


我 们 再 来 考察 求解 一 大 类 数学 规划 问题 的 一 种 十 分 一 般 的 途 
2. Be 
min f(a) (13.145) 
受 限 制 于 
Zee XC RR", (13.146) 
其 中 X 是 连通 闭 集 , f 是 具有 有 界 水 平 集 的 连续 可 微 函 数 ， 求 解 
这 问题 的 一 个 算法 称 为 能 行 方 铅 法 ， 如 果 该 算法 能 以 下 述 方式 来 
描述 . 
WE=0, 1, o BE A ae X, 找 一 个 方向 向 量 e 使 
得 
(2h) TV F(s <0, (13.147) 
并 存在 Oyi1>0, 使 对 一 切 SarSan 均 有 Han tE X, 
这 就 是 说 , 2* 是 一 个 能 行 下 降 方 向 ,或 称 为 “可 用 的 ”方向 ， 按 某 
种 准则 决定 mra, 使 得 
gt = etaa t EX, (13.148) 
按 这 方式 进行 ,一 直到 满足 某 个 停止 条 件 , 可 以 希望 它 是 一 个 收敛 
条 件 . 
能 行 方向 法 由 Zoutendijk* Say, 在 全 的 一 系列 文章 中 可 找 
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到 , 例如 见 (42, 43, 44]， 读 者 容易 看 到 , 前 面 叙 述 的 无 约束 算法 
的 大 部 分 ， 以 及 本 章 中 给 出 的 处 理 约 束 问 题 的 方法 都 是 能 行 方向 
法 的 特殊 情形 ， 此 外 , 线性 规划 的 单纯 形 法 和 将 在 第 14 章 讨论 的 
某 些 方法 也 可 看 作 是 能 行 方向 法 . 应当 提 及 , 因为 能 行 方向 法 的 这 
个 一 般 性 ， 本 节 所 述 的 思想 和 结果 是 否 真 是 无 约束 最 优化 方法 的 
扩充 , 从 而 应 属于 本 章 ,这 一 点 是 成 问题 的 。 我 们 把 本 节 的 能 行 方 
向 法 的 讨论 限于 线性 约束 的 非 线性 规划 情形 ; 


(LCP) min f(s) (18.149) 
ERAF ， 
mbm0, =l, =, m, (13.150) 
=1 
$ auz 50, pamai oes ip; (13.151) 
=] 


这 在 上 节 已 定义 了 . 对 于 能 行 方 向 法 的 每 次 迭代 , 要 求 两 个 主要 
决策 : 
L. 选择 一 个 能 行 下 降 方向 . 
2. 沿 着 这 能 行 方向 选择 一 个 步 长 . 
首先 要 求 读者 证 明 ， EA EX ( 即 满足 (13.150) 和 
(18.151)), 从 z" 出 发 的 能 行 下 隆 方向 > 必定 落 在 Z*(a") N Ca") 
H, ZAN 2?(o*) 是 第 3 章 中 在 更 一 般 意义 下 定义 的 , 这 里 
22 (at) =e: Bagy~0, i =, m Sayes0, IEI, 
(13.152) 
Gao = {2:2"Vf (a) <0}, (13.153) 
其 中 
=f aph=b, E E +, 中 (13.154) 


— fish, MAEA oo EX 出 发 有 很 多 能 行 下 降 方向 ， 所 以 通 
过 求解 下 面 的 最 优化 问题 ， 可 在 这 些 方向 中 选取 最 速 能 行 下 降 方 
向 ,这 问题 是 
(SFD) min TYF (a) (13.155) 
受 限 制 于 2zE Ze), H 
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(ef <2, . (13.156) 
AA Zi 是 一 个 锥 , 必须 限制 lz] DRA APR. 注意 , 2 
的 Euclid 模 |z| 是 一 个 非 线性 函数 ,所 以 (18.156) 是 非 线性 约束 . 
M Farkas RIR ANE M 3.2 RN MB, Za N Za) = 6 CBN AS 
存在 从 o 人 =O Fil 
LER", 使 得 
VFL) -mrt > ia, (13.157) 
其 中 a= (aia, …， Gn)”, 换言之 , 能 够 找到 一 个 从 a WARES 
下 降 方向 的 充 要 条 件 为 Va 不 在 相应 于 积极 约束 的 向 量 4% BF 
张 成 的 那个 锥 之 中 . 设 后 面 的 条 件 成 立 , > men fe Ep 最 接近 
Vi (at) 的 点 ,其 


(PHT VA] =, (12.158) 
我 们 现在 证 明 , (SFD) 2 A BIB PREFS T E E TRAN: 
„ti ptt Vi (a*) 
P TiC ole p Aea) 
定理 18.980 
CR 5D AR, WE ROR 下 降 方向 的 问题 
(SFED) 的 最 优 解 . 
GEW] XA u MASO, 可 以 写 
Pti > nat > 3 rat, . (13.160) 


令 2 是 满足 (13.156) 的 任意 能 行 方向 , 则 
ye Saale D MCT, (13.161) 


A (13.158) m (13.159) FE 


earen ET 


=— |P VF j, : (13 .162) 
BRL h (13.159) (13.161), & 
oUF (a) > ~ 2? (hett — Of (o*) N, (13.163) 
利用 Schwarz 不 等 式 " 吕 和 (13.162) 推 得 


Ra 


ZVF (at) > — fal vo (13.164) 


> — eve (a) | (13.165) 
> (PY (a), (13.166) 


x2 


py PARE Go Magy 
(a) Tx ty 
Y 


SEEPLLEEAKLLL LLY 
yy 


{a? )7 xD 
EE, 


oe 


Ffixt) 


wit) 


@ @) 
13.3 ”起 束 能 行 方向 l 
最 速 能 行 方向 的 思想 在 图 13.3 中 说 明 . (a) 中 图 表明 由 两 个 
线性 不 等 式 约束 定义 的 能 行 集 ， 也 表明 两 个 约束 都 是 积极 的 点 入 
和 该 点 的 梯度 .。(5) 表明 由 向 量 吧 和 和 所 张 成 的 锥 Ze"), 也 说 
H T 2°? fey Fase, 
% 工 的 几何 解释 和 定理 13.8 有 一 直接 应 用 . 求 最 速 能 行 下 
降 方向 的 问题 ,可 用 一 类 非常 特殊 鸣 二 次 规划 来 解 ,在 这 规划 中 要 
求 的 是 由 积极 约束 张 成 的 锥 到 点 VF Ce") 的 最 小 距离 ， 这 规划 为 


min | VFC) — $ asa! — Bhat? (13.167) 
Att i= Ere) 
受 限制 于 

MeO, 66 I), (48.168) 


这 里 我 们 注意 , 这 二 次 规划 的 求解 不 完全 是 平凡 的 ,但 有 合用 的 有 
效 解 法 ,例如 见 [2, 8, 11). 

在 选择 一 个 能 行 下降 方 向 时 ， 求 解 非 线 性 (二 次 ) 规 划 的 楼 求 
TURA, 只 要 用 限制 方向 向 基 各 分 量 的 别 种 约束 代 兰 Euclid 模 
HR (13.156), Plan, RANT A 

ana | yl <1 (13.169) 
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来 限制 向 量 z 的 La (Chebyshev ) 模 , 或 者 等 价 地 ， 

—i<y<1, j=l, =, n, (13.170) 
FA 13.170) RF (13.156), 产生 了 另 一 个 求 最 速 能 行 方向 的 问题 ， 
它 是 一 个 有 特殊 结构 的 线性 规划 .这 类 附加 的 限界 约束 可 以 在 
[44] 中 找到 . 

有 可 能 把 上 面 概述 的 选取 方向 的 步骤 扩充 为 类 似 于 有 约束 
ARERR, REE AR BA FA, VEO) 代替 
Vi (o*), 这 里 Ay 是 了 的 Hesse 道 阵 的 近似. 另外 可 以 用 (27Bz)*? 
这 样 的 非 Euclid 模 代替 Euclid 模 , 这 里 B 是 正定 的 , 从 一 个 迭代 
到 另 一 个 迭代 时 它 可 以 变化 . 

在 选 定 一 个 能 行 下 降 方向 后 , 我们 必须 选 步 长 ck; 所 以 定义 

apy = Min {arr Ati}, (13.171) 
其 中 
Chg = Max apr: (22) VF Om agat <0}, (13.172) 
ap = Max api: (a Hag tE AY, (48.173) 
对 于 am < +o, RNA 


VF (a tarz) = 0, 
令 


atl gh 4 gt gett 
我 们 回 到 选择 方向 的 步骤 。 看 来 似乎 是 ， 当 给 定 一 个 初始 能 行 点 
后 , 按 这 方式 继续 做 , 就 有 了 一 个 完整 的 算法 ， 不 幸 , 这 样 的 方法 
不 仅 有 非常 慢 的 线性 收敛 速率 ， 正 象 无 约束 最 优化 中 的 最 速 下 降 
法 一 样 , 而 且 由 于 所 谓 锯 肯 现象 "或 拥塞 现象 "rm， 约 束 可 能 阻止 
AAMC. ASAT LS Wolf 的 例子 来 说 明 . 

pi 13.4.1 

设 我 们 有 

min f(e) = E [(@,)* ernt (pa) -es (18.174) 

受 限 制 于 “>0. Ri f ALN, 所 以 是 一 个 西 规划 问题 .我 们 用 


前 面 的 算法 解 这 问题 ,从 ?~(0, 子 , F) 出 发 ， 在 这 点 ,约束 
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| 


rr xk 人 


o> 0 是 积极 的 , H 


-vf =((4)", -2(4Y ,1). 8.178) 


因为 VF) 是 能 行 下 降 方 向 , Ree a, 到 达 


spop) am 


在 这 里 约束 zs=0 变 成 积极 的 ， 按 这 方式 继续 , 我们 得 到 


1/2 1/2 
“(0, 于 "于 sta) tat) ) 
(18.177) 
040 又 变 成 积极 的 . 由 这 方法 产生 的 点 在 两 个 积极 约束 21 宇 0 
和 za>0 之 间 押 摇摆 摆 , BWM MH) = (0, 0, ĉa), 其 
中 
ateh ZNL”. (13.178) 
BREA CREAR. I 
RETT A BE, AR“ DLR FE, Æ 由 McCormick”, 
Polak?” Zangwill™”, Zoutendijk’™ 和 其 他 人 提出 的 .我 们 用 
Zoutendijk 的 一 个 方法 结束 本 节 . 在 这 方法 中 , 一 旦 某 约束 变 成 
积极 时 , 除非 强迫 它 离开 , 否则 它 就 不 再 离开 积极 约束 集 , 这 样 就 
可 以 防止 锯齿 现象 . 
1. HOCX HRV), & Ib=Ko=O; > k=0, 并 选 一 
个 小 的 数 2 > 0, 
2. 用 任何 选取 能 行 下 降 方向 的 方法 求 愉 下 ERAS RIR 
Kk, HA E 
(i) (a) T+, i=l, =, m, (18.179) 
_ [=O i€ In 
aes ee ee 
(ii) (VF (at!) —V f(a") 7284 =0, AE KK, (13.181) 
Gii) (NTVF eE, (13.182) 
3. 如果 求 方向 的 问题 是 不 相 容 的 ， 即 没有 ** 站 满足 (i) 至 
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(13.180) 


Git) 时 , 则 
Ci) FLUK LHS, MAT R Ky PERI IR, 进 到 
步骤 2. 
Gi) # LUK: =0, 则 停止 ; 最 优 解 已 得 到 . 
4. 按照 (13.471) 给 出 的 公式 决定 oth A a= +O, 财 停 
ik, RETAN. 
5. 计算 
gett mm ot akaz" tT (13.183) 
和 Vf), 
6. Gi) 车 at4i 一 Qlx 则 令 TeaHh A Kr KeU k. 
Gi) 若 an=% WS 
Tusa =IeU (4: (Tat =0 H, (a')7at> 0, t= mtd, +, BF, 
(13.184) 
并 令 Keb. 
Gii) # ar 一 ok+l， 则 按 步 又 6Gi) 进行 ， 但 令 Krn= 
{k}. 
T. &k=k+1, HEB R 2. 
YER, (13.181) CA we mA RSE ATT re) LH 10 章 )， 
直到 出 现下 述 情况 ， 或 者 是 最 优 解 已 求 得 , 即 对 所 有 能 行 的 2 有 
(zyJTVFo > E; (13.185) 
或 者 积极 约束 集 发 生 改 变 ， 实 际 上 ,8 是 渐渐 地 缩减 到 一 个 非常 
小 的 正 数 , 以 保证 几乎 有 最 优 性 ， 对 于 二 次 目标 函数 , 每 次 近代 取 
e=0, 
如 果 没 有 初始 能 行 点 可 用 ， ee ar. 一 相 过 
程 解 一 个 辅助 线性 规划 : 


min 3 Ee (13,186) 
受 限制 于 . 
产 Baits + E= by @=1, +, m, (13.187) 
=I 


2) ayet Eiby 4=m+l, es P, (13.188) 
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£>0, (13.189; 
如 果 这 线性 规划 的 最 优 解 是 (z*, E), E10, WKE =r, 关于 
非 线性 目标 函数 的 能 行 方向 算法 就 可 以 开始 ， 

Best, Ritter!’ 曾 利用 条 件 (18.181) 达到 接近 共 胃 方向 ， 他 
们 选择 方向 的 步骤 是 基于 Erank-Wolfec2 方法 的 类 似 部 分 , 在 那 
里 , 要 鹤 小 化 的 是 目标 函数 的 一 个 线性 近似 , 而 受 限 制 于 能 确保 搂 
RH ARTE AR, 

最 后 , 提 一 下 另 两 个 能 行 方向 法 , CE RA EA 
扩充 , 用 来 求解 具有 线性 约束 的 非 线 性 规划 问题 。 第 一 个 方法 是 
Ritter’? 导出 的 ， 它 对 一 大 类 问题 是 收敛 的 ， 且 对 某 些 严格 凸 郴 
数 有 超 线性 的 收敛 速率 ， 这 方法 是 同一 作者 仅 用 一 阶 导 数 的 
无 约束 问题 算法 的 扩充 ， 在 第 10 章 曾 提 到 过 ， 第 二 个 方法 属于 
MocCormickce， 既 用 一 阶 导数 也 用 二 阶 导数 ， 收 伍 到 满足 最 优 性 
二 阶 必要 条 件 的 点 . 


13.5 非 线 性 约束 的 投影 法 和 能 行 方 向 法 


在 第 18.3 PA 13.4 节 中 的 梯度 投影 算法 和 能 行 方向 算法 ， 
其 大 部 分 已 被 扩充 到 具有 非 线 性 约束 的 数学 规划 上 .但 是 , 用 这 些 
方法 求解 这 种 问题 , 比 线性 约束 的 问题 要 困难 得 多 . 如 果 约 束 是 线 
性 的 , 对 目标 函数 进行 一 维 搜索 的 方向 或 者 在 能 行 集 的 内 部 , 或 者 
在 相应 于 积极 约束 集 的 诸 超 平面 的 区 集中 。 在 两 种 情形 下 ,从 当 
前 的 点 沿 着 搜索 方向 移动 一 个 小 距离 将 不 会 有 脱离 能 行 集 的 危 
E. 扩充 投影 法 或 能 行 方向 法 到 非 线性 约束 情形 ， 由 此 引起 的 郴 
难 是 ， 搜 索 方 向 限制 在 积极 的 非 线性 约束 的 切 平 面 之 交集 中 ， 这 
时 , 沿 这 搜索 方向 的 任何 移动 可 能 导致 非 能 行 点 , 就 需要 额外 的 步 
又 使 之 回 到 能 行 集 ， 重复 地 沿 搜 索 方 向 移动 并 回 到 能 行 集 , 产生 
了 图 18.4 所 示 的 “花边 现象 . 

积极 约束 的 这 种 直接 处 理 使 这 算法 可 观 地 慢 下 来 。 由 于 这 原 
因 , 利用 乱 罚 函数 法 间接 处 理 非 线性 约束 似乎 更 有 利 , 路 非 非 线 性 
约束 有 某 种 特殊 类 型 或 结构 ， 妈 几何 规划 中 的 那样 .下 一 章 给 出 
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图 13.4 沿 一 个 积极 非 线性 约束 形成 的 “花边 现象 


的 方法 也 可 以 推荐 来 解 某 些 非 线性 约 东 问题， 虽然 这 些 算法 的 收 
敏 速率 一 般 是 慢 的 、 我 们 在 结束 这 一 章 之 前 , 还 需 对 无 约束 最 优 
化 方法 在 非 线 性 约束 数学 规划 问题 中 的 某 些 扩 充 作出 简要 的 评 
论 . 

考虑 一 般 非 线性 规划 


min f(s) (13.190) 

受 限 制 于 
gle>, i=l, =, M, (13.191) 
h;(æ) =0, j=1, “ty P l (13.192) 


其 中 f, go ;是 连续 可 微 函 数 ,并 且 至 少 有 一 个 约束 是 非 线 性 的 . 
求解 这 个 问题 的 一 个 方法 是 Goldfarb 算 法 的 扩充 , 它 是 属于 


Davies 的 . 


在 点 2 线性 化 了 的 不 等 式 约 束 oo) > 0 由 下 式 给 出 : 


g(a") + e—a) Vg O, (43.193) 
类 似 地 , 线性 化 了 的 等 式 约束 如 (2z)=0 是 
hw + (a — ehl =0, (13.194) 


如 果 gi(w*) 一 0， 则 线性 化 约束 (13.193) 定 义 了 一 个 闭 半 空间 , 它 
是 由 曲面 gC%) =0 在 * 处 的 切 超 平面 产生 的 .车 为 (w*) =O, Sl 
满足 (13.194) 的 点 位 于 AC) 一 0 在 一 处 的 切 超 平面 中 . 

整个 计算 过 程 中 , 所 有 等 式 约束 必须 保持 “积极 *.。 一 个 非 线 
性 约束 称 为 在 x* 是 积极 的 ， 如 果 相 应 的 线性 约束 在 er 处 是 积极 
的 . 如 果 任 意 哆 或 为 部 是 线性 的 , 那 就 按 Goldfarb 算法 的 同样 
方式 来 处 理 ， 纵 定 一 个 能 行 点 8， 决定 wr 处 的 积极 约束 集 并 计算 
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搜索 方向 Pt, 它 是 适当 地 投影 到 相应 于 积极 约束 的 超 平面 的 交 
集中 ， 下 一 步 是 决定 沿 着 2*1 方 向 步 长 的 一 个 界限 owt1， 求 出 沿 
ott) 到 最 近 的 线性 化 约束 的 距离 , 记 这 距离 为 9, 则 令 
az= mint{e, 8} (13 .195) 
其 中 是 某 个 正 的 常数 , 例如 c=2， 这 样 的 ao. 将 限制 步 长 并 避 
免 从 能 行 点 移动 太 远 ， 现 在 我 们 令 
be a tm g + oy, hth, (13.196) 
并 求 在 党 ! 处 的 所 有 约束 的 值 . 如 果 任 何 约束 被 违反 ， 就 决定 一 
个 指向 能 行 集 的 返回 方向 向量 7*。 沿 着 这 方向 作 一 移动 ,得 到 一 
内 点 2， 按 一 个 内 插 格 式 在 能 行 集 的 边界 上 确定 一 点 mw*。 为 了 
这 有 目的 ,一 个 有 趣 的 内 插 方 法 是 由 Beamer, Wilde 建立 的 . 然 
后 沿 着 连结 人 “和 2*? 的 线段 求 了 的 极 小 值 点 、 如 果 这 样 的 税 小 
值 点 ot 已 求 得 ,并 且 如 果 能 行 集 是 凸 的 , 那 末 .o% 是 在 能 行 集 的 
内 部 , 我 们 必须 沿 着 例如 最 速 下 降 方向 再 次 移动 到 边界 , 达到 新 的 
— Ra) MRE a” Alo? 之 间 没 有 找到 极 小 值 点 , 新 的 搜索 就 
Moh 出 发 沿 祝 31 方向 开始 . 图 13.5 表 明了 一 种 典型 的 情况 
为 了 在 一 个 可 用 的 算法 中 实现 Davies 方法 , 很 多 技术 性 的 细 


eb Wines | 
if 


图 如 .5 用 Davios 方法 沿 积极 的 非 线性 约束 移动 的 情况 
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i EY, 关于 细节 ， 读者 可 参看 DaviesT6] 和 Rosen [34]. 
”现在 转 到 Zoutendijk’**” 为 非 线性 约束 导出 的 能 行 方向 法 ， 
考虑 问题 


min f (a) (13.197) 
受 限制 于 
g(a@)0, i=1, ---, m, (13.198) 
其 中 了 和 gi 是 连续 可 微 的 。 对 于 性 何 能 行 点 ww 和 之 0, 定义 
Xæ) = {ipw <e}, (13.199) 
并 令 RETR. ER k KER, BET RT M >, 我 
们 求解 如 下 的 “选取 方向 的 线性 规划 ” 
mino (13.200) 
受 限制 于 
ovVf (a), (13.201) 
HAV) >a, tE Xp(a*), (13.202) 
ig| SL j=1, =, m, (13.203) 


ARE TE R, POE RB, nee Ay ghtl x gh, E 
则 令 e* imla, 如 (13.171) 至 (13.178) 给 出 的 那样 计算 aktis 


IES oe Fag" t, Zangwill' FHR Hy Pe MB) (13.197) 
和 (3.1498) 给 出 的 问题 的 解 , 在 [40] 中 他 称 w* 为 解 , MRM e" 出 
发 找 不 到 能 行 下 降 方 向 的 话 ， 当 然 , asn 的 计算 可 能 是 非常 繁复 
的 ,要求 设计 用 个 迭代 , R Davies 方法 中 概述 的 那些 ， 

惩罚 函数 法 和 线性 约束 非 丝 性 规划 的 算法 的 成 功 实 现 ， 推 动 
了 两 个 新 近 的 工作 ， 在 这 两 个 工作 中 ， 非 线性 约束 规划 是 用 一 个 
线性 约 东 规划 的 序列 来 求解 的 ， 其 中 利用 了 惩罚 A -Lagrange 
了 式 方法 . 


HK RASAAR HA 
min f (e) (18.204) 
gla) 20, t=1, =, m, (13.205) 


Hop fA ge SHAR oC Re YEE oy PAC h Be BEAU BAH, Kosen, 
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Kreuser™ 39 的 方法 可 描述 如 下 ， 从 任意 点 oC R 开始 、 在 第 
次 迭代 ,我们 有 一 个 指标 集 T(w*), 定义 为 
Ila) = {iig <0, i=l, o, m}. (13 .206) 
按 下 式 计算 4, l 
w= Tt (a) VF (a), (13.207) 
其 中 
T (a) = TF (EJ (I (a), (13.208) 
而 J (a*) FE iE Ia) BY g(a) FE a A Jacobi i PE, ， 即 其 列 是 
Vote) ER, CLG), Jie) BIGHT XR. Be 
(J (a*)) 77 (BE SER. EOR AREA R A . 
min {f(#) “= AF Lge) — gla) —(@ —0*)7V C0") I} 
oe (13.209) 
受 限 制 于 
giw) + (e—a) TVga, 4=1,--, m, (13.210) 
在 求解 时 , 不 妨 用 Goldfarb 方法 . WRA a. Wa HERA 
许 误 差 之 内 注 足 问题 (13 .204) 和 《138.205) 的 一 阶 Kuhn-Tucker 
条 件 , 就 停止 ; PMS k—k+1, 重复 前 面 的 步骤 .可 以 证 明 , RS 
满足 某 些 正则 性 假定 , 这 个 方法 具有 二 次 收敛 速率 。 注意 , 线性 约 
东 决 不 会 出 现在 (18.209) 中 ,但 包含 在 (13.210) 中 . 
Robinson's” 提出 用 一 个 类 似 的 方法 , 来 求解 具有 下 面 附加 等 
式 约 束 的 问题 (13.204) 和 (13.205). . , l 
hlæ) =0, j=l, -…, p, (13.211) 
HPA MS, % 是 二 次 连续 可 微 的 、 解 法 如 下 : EFIKAR R 
MAHE ER AVER”, MSO, ER, BREA RIB 


min TO) -$ ME ge) — gla, w)] 


-$> wh Ihe) Fo", o]} (13.212) 


受 限 制 于 
gic, a) = go) + (a —a*) V gle), ¢=1, we", M, 
(13.213) 


add 


Rila, aw) hm) + (a—a") VA a) =0, gad, o D. 
(13.214) 
令 解 是 of * 得 到 这 线性 约束 问题 的 相应 Lagrange $F "之 0， 
we 如果 有 多 于 一 个 这 样 的 三 重组 (2 和， Matt xf) 从 中 选取 
在 某 种 模 下 最 接近 (zo OY, OIA RR Gat, 和， pet) 在 
某 容许 误差 内 满足 规划 (13.204), (13.205) fn (13.211) 的 一 阶 
Kuhn-Tucker 条 件 ,就 停止 ; BIS =k +1, 重新 求解 (13 .212) 
到 (43.214)、 开 始 这 算法 的 点 o 不 必 是 能 行 点 ， 再 则 , 在 关于 定 

义 这 规划 的 函数 的 适当 假定 下 , 这 算法 二 次 收敛 到 最 优点 . 


练 习 


13.4. PHOS DAC DELH 2E P 的 集 是 目的, 说 明 复合 形 法 的 移 
动 是 很 好 地 定义 的 ， 给 一 个 形 中 问题 的 例子 , 其 中 某 些 移动 可 以 失 
KORR: 试 试 弯曲 的 山谷 ]， 说 明 无 约束 单纯 形 法 可 用 来 求 复 合 形 
法 的 初始 能 行 点 好 ， 用 单 冲 形 法 求 这 样 一 点 如 果 失 败 ， 是 否 证 明 能 
行 集 是 空 集 ? 

18.B. 9.3.1 并 其 有 约束 l 

— 2r +r +20 13.215 
的 问题 , 应 用 Rosenbroek 旋 转 方向 法 能 有 约束 形式 , 进行 两 个 勘探 阶 
段 ， 比 较 用 这 方法 得 到 的 最 好 点 台 与 真正 的 约束 极 小 值 点 . MA 
9.3.1 中 同样 参数 并 令 8 一 10 一 . 

13.0. 继续 例 13.2.2 划 下 : 首先 丢掉 约束 (13.45), 并 按 (13.50) 从 了 ,计算 
新 的 投影 短 阵 PL。 然后 增加 约束 


Zait, (13.216) 

并 计算 新 矩阵 P A (13.27)， (13.28) AŽ H K K (13.35) 至 
(13.43), 

13.D， 用 一 般 线 尼 约 束 非 线 性 规划 的 Golafarb 方法 求解 下 述 问 题 . 

min f (2) -3 (a1)? + (G2)? ayy — day (13.217) 
受 限 制 于 

my +22=5, 13.218) 

6x, ~ 72> — 12, (13.219) 
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13.E. 
13.F. 


13.4. 


13.H. 


— iy +223, (13.220) 
从 点 ?一 (一 1, 6) 开 始 计算 , 注 意 约 来 系数 尚未 规范 化 ， 

证 有 明 关 系 式 {13.92), (13.94) 和 (13.95)， 

参考 Murtagh, Sargent HC", 画 出 他 们 的 梓 度 投影 法 的 框图 . 
对 于 下 面 的 问题 , 比较 由 他 们 的 算法 产生 的 点 与 Goldiarb 算法 产 竺 
的 点 ， 


min (24)? +429)? (13.221) 
受 限制 于 
+2221, (13.222) 
ay — 220, (18.223) 
m0, (13.224) 


从 点 加 一 (8, 8) 开始 . 

用 13.3 节 的 算法 重新 求解 练习 13.D 和 13. 了 中 给 出 的 二 次 规划 . 
比较 现在 所 经 过 的 点 与 这 些 练习 中 每 到 的 相应 点 . 

TEAR, tle 名 是 从 点 * 出 发 的 ,满足 (3.110) fn (8.111) 的 能 
行 下 降 方 向 的 充 要 条 件 为 ， 它 是 由 (13.152) A (13.153) 给 出 的 
Ae) NB) 之 元 素 ， 给 出 线性 约束 非 线性 规划 的 一 个 例子 , 其 
中 从 点 出 发 没有 能 行 下 降 方向 ,但 这 并 不 落 涵 T 的 最 优 性 、 找 一 
类 问题 , 对 于 它们 , 这 种 最 优 性 是 有 保证 的 ， 

注意 , 找 最 速 能 行 下 降 方 向 的 问题 (SFD) 是 一 个 西 规划 . 用 第 5 章 
的 结果 导出 它 的 对 偶 规 划 问 题 ， 与 (13.167) 和 (13.168) 比较 . 


. 证 明 例 13.4.1 中 的 目标 函数 是 凸 的 ， 并 证 明 z 不 是 最 优 的 . 在 这 


问题 中 最 优 解 是 什么 ? 


. Levitin, Polyak "8? 提 则 了 凸 规 划 的 梯度 投影 能 行 方向 算法 ， 在 这 方 


法 由 第 次 选 代 时 ,能 行 点 2* 已 给 定 , 通过 求解 二 次 规划 

min(y— (a ~ VF YI) CY — a -VI@DD), (13.225) 
HA 2 Vi") BBE RETIRE Xb, WR 沪 是 上 述 规划 的 最 优 
解 , 则 搜索 方向 e*** 为 
有 gyte", (13.226) 
(a) 如 果 
X={r:Ar=D}, (13,227) 
RPAH mxn Me, WH, y TOR RBS MA, of 和 
Vœ Hiag. [提示 :用 413.94),] 
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b) 如 果 

X= {rar Dh, j=l, +, aby (13.228) 
其 中 a, ffl b, 是 给 定 的 界限 . Ry EAA. 
提示 : 考虑 三 种 不 同情 形 


(i) -UEL <a, (13.229) 
Gi) a, <8 — mala <b; (23.230) 
Gil) baat — -2 人 (13.231) 
13.5. 给 定 非 线性 规划 | 

min (%1~ 4)? + (zg—4)* (13.232) 

学 限制 于 
3(z7)2 十 《za)2 一 2c1739 一 和 Di<d2， (13.233) 
Bay + 4y<28, (13.234) 


(a) 用 Davies 方法 解 这 问题 ， 从 点 ?= (2, 0) 开始 , 将 这 个 算法 进 
行 几 步 建立 一 个 决定 返回 方向 ** 的 规则 ， 参 考 Davies HAH, 
与 他 的 建议 比较 . 

Cb) 从 局 一 点 2° 开始 , 对 同样 的 问题 , 试 试 Zoutendij 方法 . 
(e) 用 Rosen-Kreuser 和 Robinson 方法 去 解 这 个 问题 ， 进 行 几 步 ， 

O 通 出 用 每 竹 方 法 获得 的 点 的 行程 。 对 于 线性 约束 的 子 问题 , 用 
Goldfarb 算法 . 
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第 14 « 
近似 型 算法 


第 12 章 和 13 章 介绍 的 算法 显然 是 面向 无 约束 最 优化 的 ， 即 
它们 或 者 把 一 个 有 约束 问题 变 为 无 约束 问题 ， 或 者 通过 适当 调整 
搜索 方向 和 步 长 ,把 无 约束 方法 扩充 到 有 约 东 问题 . ARBOR 
约束 最 优化 方法 按 下 述 意 义 是 面向 线性 规划 的 ;其 大 部 分 步骤 是 
求解 线性 规划 的 子 问 题 , 或者， 当 所 考虑 的 问题 从 是 线性 规划 时 ， 
算法 就 成 为 著名 的 单纯 形 法 的 某 种 变形 .线性 规划 是 最 优化 理论 
的 一 个 媒 此 广泛 而 重要 的 分 支 ， 以 致 在 大 多 数 课 程 表 中 它 通常 是 
作为 一 门 单独 的 课程 来 讲授 , 因而 不 能 包含 在 本 书 中 、 然 而 , 对 于 
理解 这 里 的 论题 , 线性 规划 知识 并 非 必需 , 读者 只 需 知道 单纯 形 法 
是 解 线性 规划 的 一 个 极其 有 力 的 工具 即 可 ， 关 于 线性 规划 及 其 某 
些 扩充 的 一 个 基本 研究 , 读者 可 以 参看 Dantzig™™, 在 那里 还 讨 
论 了 利用 单纯 形 法 的 变形 求解 某 些 非 线 性 规划 问题 . 事实 上 , 在 
解 复杂 而 大 型 的 线性 规划 时 单纯 形 法 的 成 就 使 得 许多 学 者 相信 ， 
大 多 数 非 线 性 规划 能 够 而 且 应 当 通 过 本 章 的 这 一 类 方法 来 求解 . 
我 们 将 不 叙述 沿 着 这 些 线索 所 提出 的 所 有 方法 ， 关 于 此 姓 所 给 出 
方法 的 补充 材料 , 例如 可 以 在 Beale 的 评论 [9， 8 和 那里 提 到 的 参 
考 资料 中 找到 . 

第 14.1 节 从 一 个 算法 开始 , 这 算法 基于 对 非 线 性 规划 的 目标 
函数 和 约束 函数 的 逐次 线性 化 . 然后 提出 一 个 方法 , 它 适 用 于 目标 
通 数 被 二 次 函数 逐次 逼近 的 线性 约束 问题 . 既 约 梯度 法 类 似 于 单 
纯 形 法 , 把 变量 分 成 基本 的 (相关 的 ) 和 非 基 本 的 (独立 的 ), 它 将 在 
14.2 节 中 讨论 . 割 平面 算法 是 14.3 节 的 论题 , 按 下 述 意 义 它们 不 
同 于 先前 的 算法 : 它们 只 适用 于 凸 \ 或 广义 凸 ) 问 题 ,而 最 优 解 是 沿 
着 一 条 非 能 行 的 行程 被 接近 的 ， 这 个 行程 通过 求解 一 系列 线性 规 
划 而 得 到 . 最 后 一 节 是 关于 一 族 非 点 规划 的 解法 , 其 中 某 些 约束 
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FAR SBR AAR PRB, HES PACE BY, 这 个 证 明 
WAT h Zangwillso 提 出 的 处 理 收敛 性 结果 的 一 个 一 般 途 径 . 


14.1 近似 规划 方法 


用 一 系列 线性 规划 去 求解 一 般 非 线性 规划 问题 ， 最 简单 的 途 
径 是 , HERPE COs BY) 函数 去 近似 问题 中 的 非 线性 函数 , 然后 去 解 所 
产生 的 线性 规划 ， 一 个 直接 的 缺点 是 线性 近似 通常 只 是 局 部 有 效 
的 , 即 在 非 线 性 函数 被 近 伺 的 那些 点 的 周围 有 效 , 或 者 至 多 在 作出 
近似 的 这 些 点 的 某 个 小 邻 域 中 有 效 ， 所 以 , 为 了 发 展 一 个 有 用 的 
算法 , 我们 在 当前 点 周围 作 泪 数 的 近似 , 且 从 这 点 所 作 的 移动 限于 
取 小 步 长 ， 为 了 这 个 理由 ， 本 节 描 述 的 方法 也 称 为 “小 步 长 梯度 
法 , 以 区 别 于 第 18 章 介绍 的 “大 步 长 方法 . 

这 里 首先 给 出 的 近似 方法 是 Griffith, Severe IRRI, 考 
ete A a RAE BBY ASE EA 


(BP) min f(s) (14,1) 
受 限制 于 
gla, t=1, =, m (14.2) 
hi{a)=0, b=1, «s, Ps (14.3) 


w>, g=l1, +, n, (14.4) 
HH fl og hawk, BET wu RASCH. 如 果 下 界 不 全 为 
F, 那么 用 一 个 简单 的 变量 代 换 可 以 容易 地 将 它们 化 成 上 述 形式 ， 
假设 ?是 (BP) 的 一 个 能 行 解 , 在 ? 周围 将 每 个 非 线性 函数 线 
性 化 , 得 到 
Fafe, 2) =f(2)+(e—2)'Vf (2), (14.5) 
PE E) = gE) +e) Tgl), t=1, ++, m, 
(14.6) 
ha) Ew, 2) =h) + (ee) Vha), b=, =, P. 
(14.7) 
引入 新 的 向 量变 量 y, 它 定义 为 . 
Y= (14.8) 
24) 


因为 y 的 符号 一 般 是 没有 限制 的 , 我 们 利用 公式 


Y= y Yr, J=1, ©, ^, (14.9) 
其 中 
yf0, 0, 7=1,…, n, (14.10) 
并 且 
>0, 
w=| 出 (14.11) 
0, ys<0, 
Š 0 
s=] PuMa (14.12) 
0, y>0, 


ft | 纺 | RRM r Blo; KER, RRMA s HoE. 我 们 希望 
这 个 距离 受 限 制 于 下 列 不 等 式 . 

lul Sm, j=1, ee, n, ever. 
Kim 是 给 定 的 常数 。 因为 向 量 %w 也 是 有 界 的 , 结合 (14.4) 与 
(14.8)Æ (14.13), 得 到 


O0<y}<min{m,, uj;—z}}, (14.14) 
Ox<y;<min{m,, Zi}, (14.15) 
近似 于 CBP) 的 线性 规划 为 
min f(@, T) =f (2) ++ fE) VF) 
(14.16) 
受 限制 于 
gla, 2) = gle) + (y+) VE) — (g) Vg) 29, 
4=1, ==, m, `- (44.17) 
hilw, 2) =C) + (y+) Vht) — (y7) Vue) 一 0， 
l=1, =, p, (14.18) 


还 受 限 制 于 (14.14) 和 (14.15). 
Griffith 和 Stewart 的 算法 由 一 个 选 代 格 式 所 组 成 ， 它 从 -点 
2 开始 ,求解 上 述 线 性 规划 WRT AR ot 对 于 
(BP) 是 能 行 的 , 那么 把 它 作为 下 一 个 线性 规划 的 新 的 近似 点 , 这 
下 一 个 规划 具有 与 先前 相同 的 界限 。 然而 ， 如 果 on 是 非 能 行 的 ， 
它 不 被 接受 ， 这 时 就 用 缩小 了 的 m 值 重复 求解 原来 的 线性 规划 。 
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一 个 点 是 (BP) 的 最 优点 ,如 果 它 在 某 个 允许 范围 内 是 能 行 的 , 并 
ERT y 和 tw) 的 相继 值 的 某 个 收敛 准则 是 满足 的 . 
界限 mi 的 值 对 于 算法 的 成 功 与 香 影 响 很 大 ， 如 果 忆 们 太 小 ， 

步 长 也 就 取得 小 , 进展 会 相当 慢 ; 另 一 方面 , m 的 值 太 大 , 可 能 得 
到 非 能 行 解 , 于 是 需要 逐步 缩小 界限 的 值 . 从 一 个 近似 点 移 到 另 一 
个 点 时 ,所 有 非 线 性 应 数 要 重新 取 近 似 ,并 且 , 通 常 必须 去 解 一 个 全 
新 的 线性 规划 .这 个 方法 并 不 局 限于 凸 规 划 或 它 的 扩充 . 然而 , 其 
至 对 于 凸 规划 , 局 部 最 优 解 的 收敛 性 也 没有 得 到 证 明 , 虽然 在 实践 
中 这 个 方法 在 是 的 情况 下 通常 是 收敛 的 ，Gri 人 hth-Stewart 方法 主 
要 适用 于 这 样 的 非 线性 化 最 优化 问题 , 它 有 很 多 变量 ,但 可 能 缺少 
PIPE aE, 然而 除了 线性 约束 外 只 有 少量 非 线性 约束 。 在 这 种 问 
题 中 常常 要 改善 某 些 现 有 解 ， 而 理论 上 的 收 和 敛 性 考虑 并 不 重要 . 
当然 , 要 假设 这 个 方法 的 使 用 者 可 以 使 用 有 效 的 线性 规划 程序 ， 


ij 14.1.1 
为 了 说 明 这 个 算法 , 假设 求解 的 非 线性 规划 是 
min f (s) = — 2g, — £3 (14.19) 
受 限 制 于 = 
gre) =25— (as)? — (ws)2>0, (14.20) 
gal) =7—(ar)?+ (e) >00, | (14.21) 
b>m>0,， 10>e:>0, (14.22) 


我 们 从 点 z= (2,， 2) Fih, 界限 om; 取 ma=1.5、ms=2.5, 非 
线性 规划 和 第 一 次 近似 线性 规划 (关于 原来 的 变量 ) 示 于 图 14.1 
中 .线性 规划 是 

min flw, z)= —6— yt +27 -ut tyr (14.23) 

受 限 制 于 . 3 - 
gw 2)=17—4y} -4yr —4yt +4yz 20, (14:24) 
Jale, z) = 7—Ayt+-4y7 +-4yd — 4yr 0, (14.25) 
L.5B>yf>0, © (14.26) 
1.524; >0, (14.2%) 
2.5>y3 0, . (14.28) 
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x 


上 
第 一 次 近似 线性 规划 的 得 优 解 
第 二 次 近似 线性 规划 的 最 优 解 


非 线 性 规划 的 最 优 解 


WiLL 线性 近似 规划 方法 


2>> ys 0, (14.29) 


ERRE yi = 1.5, yt = 2.5, yi 一 yz = 0, 用 原来 的 变量 , Bazi 
3.5, zi,2 一 4.5， 这 个 点 不 满足 (14.20)， 所 以 必须 缩小 m. Ri 
将 它 缩小 一 半 ， 到 m=0.75, ms 一 1.25， 新 的 最 优 解 在 01,1= 
2.75, w$,z 一 3.25， 这 个 点 对 于 原来 的 规划 是 能 行 的 ， 从 而 作为 新 
的 近似 点 。 l 
- 应 该 提 一 下 , 函数 是 可 分 离 的 非 线 性 规划 , 例如 目标 函数 为 
f(a) = falar) + faa) +e + frr), (14.30) 
自 约束 为 线性 的 (或 可 分 离 的 ) 规 划 , FR PEE A ER, 
其 中 使 用 了 线性 规划 单纯 形 法 的 某 种 修改 ， 关 于 细节 , 读者 可 以 
参考 Beale[7] 和 Dantzig[12], 

成 功 地 实现 近似 规划 方法 ， 取 决 于 近似 子 问 题 (如 Griffith- 
Stewart 方法 中 的 线性 规划 ) 的 有 效 求解 。 有效 的 二 次 规划 算法， 
加 上 用 二 次 函数 能 更 精确 地 逼近 非 线性 函数 这 一 事实 ， 结 果 发 展 
为 更 新 近 的 近似 规划 方法 .这 类 算法 的 一 个 代表 是 下 面 描述 的 
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Fletcher 的 超 方 体 法 “7. 
这 个 方法 是 为 了 求解 线性 约束 或 可 能 是 无 约束 的 问题 而 设计 
的 ， Fletcher 没有 考虑 非 线 性 约束 问题 , 也许 因为 这 种 约束 能 较 
好 地 闻 接 处 理 , 也 就 是 说 , 把 它们 变换 到 只 标 函 数 中 去 , 正如 在 第 
12 章 中 看 到 的 那样 。 所 以 , 考虑 问题 
min f(s) (14.31) 


Arb, (14.82) 
其 中 了 是 可 微 实 函 数 , 4 是 nxm ME, bm EA OX HK 
示 满 足 (14.82) 的 zE Rr" 的 集合 ， 在 这 个 方法 的 每 次 迭代 中 , 二 
次 近似 fale, a) Æ a AS Sf eo KR, H 

V fala) =V F(a), 

又 用 一 个 给 定 的 对 称 矩 阵 Bs 作为 fo 的 Hesse BE, 每 一 个 子 问题 
由 求解 一 个 二 次 规划 组 成 , 要 在 约束 (14.32) 下 对 fo 取 极 小 , 且 从 
当前 点 * 出 发 的 移动 要 限制 在 一 个 赵 方 体内 , 换言之 , Chebyshev 
模 要 满足 


ATES 


[e—a |a= max |g e; |<", (14.33) 


下 面 将 看 到 ， 这 方法 的 一 个 重要 特点 是 系统 地 调整 如， 使 得 在 
(14.38) 定 义 的 超 方 体内 , fo 在 某 种 意义 下 有 效 地 近似 于 三 
另 一 个 重要 的 特点 大 每 次 选 代 后 和 矩阵 Bs 的 修改 . 如同 在 基 
些 无 约束 最 优化 的 氢 -Newton 算法 那样 ，Bs 用 秩 2 校正 来 修改 ， 
以 使 下 列 形式 的 割 线 关系 式 满 足 ; 
B — YY, (14.84) 
其 中 pt sak — ot VTN ,下面 的 修改 公式 是 属 
于 Powell), 
> OF — Br aP) (Cp) +p (y* Braap) 
Par Dee: CP Tp 
PY OF — Be a) gp? 
Cp) pk |? she) 
这 个 修改 公式 的 某 些 性质 和 相应 的 无 约束 变 尺 度 方 法 已 在 练习 
141.L 中 考察 过 . 
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如 果 By. 是 正定 的 , 修改 公式 (14.35) 并 不 能 保证 Bi 是 正定 
的 , 结果 是 ,二 次 子 问题 可 能 有 满足 及 ohn-Tooker 最 优 性 必要 条 
件 但 不 是 整体 极 小 的 点 。 虽然 Fletcher 的 二 次 规划 算法 "9 能 有 
效 地 处 理 上 述 情 况 , 但 更 希望 的 也 许 是 对 修改 公式 作出 限制 , 使 得 
从 正定 的 Bo 出 发 , 以 后 所 有 的 By 也 是 正定 的 . 这 个 步骤 可 以 通 
过 下 述 办 法 实现 ; (14.35) 右 端 第 二 项 和 第 三 项 乘 以 一 个 适当 选择 
的 常数 9, 0<9<1, 使 得 9 

det Bria det By_1, (14.36) 

其 中 ， 比 如 说 ec 一 0.1，RTietcher 的 超 方 体 法 ， 把 可 靠 的 理论 基础 
闻 经 验 确定 的 常数 结合 起 来 ， 以 保证 成 功 的 应 用 ， 这 方法 现在 可 
叙述 如 下 : 

1. 假设 EX 是 已 给 的 , HH FO) Vio), 且 选 择 常 数 
À. A°, H15 Ak >O, 取 少 一 0. 

2. 如 果 of (在 某 个 允许 范围 内 ) 满 足下 列 Kuhn-Tucker 条 
件 , 就 停止 : 


VEC) -$ nat = 0, (14.87) 
Af (ah) et — b] =0, g=1, …， M, > (14.38) 
AO, (14.89) 


否则 , 用 (14.35) 确 定 的 Be 或 对 修改 公式 作出 某 种 变动 ， 以 保证 
By 是 正定 的 , 这 里 Bo 是 任意 的 对 称 ( 正 定 ) nxn BE, 

3. 求解 下 列 二 次 子 问题 ， 
(QSUB) min f(a, 2*) =f (2) + (w@—a*) VF (2%) 


+5 (e—a) Buea) (14.40) 


受 限 制 于 
Atb, (14.41) 
feet] asht, (14.42) 
FRE A oA fo), VF Ce™) 和 


Fo 一 Fa) joa 
POT, A FY" eer 
a54 


如 果 30.5, Rattan ¥ thr me 4, 否则 转向 步骤 5. 
4. 如 果 下 述 条 件 中 任何 一 个 成 立 , BAR b+ EG 
又 2, 
fat*—a* | che, (14.44) 
Ile) PI (2*), (14.45) 
其 中 Ta) Al I) 分 别 是 在 zz Alo” kb (14.41) 中 积极 约束 指 
标 集 ， 否 则 , 求解 一 维 极 小 化 问题 : 
min fa(w" +a(s**—g*)) (14.48) 
受 限 制 于 
|a] <2, {14.47) 
Hita ER. HI aetta aa), OR 
Fala, a) <f (a) 一 Alfa AS = vu ae a) | (14.48) 
那么 , > 
hrt1— min {hh, 2h*}; (14.49) 
否则 令 A =h, He k—- b+ 并 转向 步 桑 2. 

5. 如 果 p*<0.1, 将 矿 的 当前 值 减 小 一 半 并 返回 到 步 又 3. 
如 果 0.1<pr<0.5， Maea, ME ba b+ ER A 
Be 2. | s . 

Fletcher 指导 了 某 些 数值 试验 ， 得 到 了 有 希望 的 结果 ， 关 于 
算法 的 细节 以 及 某 些 收敛 性 结果 ; 读者 可 参考 [171。 没有 约束 的 
超 方 体 法 的 收敛 性 质 ， 以 及 其 他 有 关 的 算法 ， 也 已 为 Powellcs 所 
研究 。 

在 结束 本 节 时 , 我 们 提 一 下 某 些 早期 的 方法 , 它们 以 类 似 于 超 
方 体 法 的 想法 作为 基础 , 这 些 方法 原来 是 为 无 约束 问题 导出 的 . 

 BARMER EEH o, o, vm 的 一 个 非 线性 方程 组 

file)= 0, i=], ver, M, (14.50) 

Jit m> nm, PPLE EDA Fy EM F eM, 
即 求 解 te : 

min f(s) She, (14.51) 
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我 们 能 在 点 的 周围 将 每 个 产 线 竹 化 , 得 到 二 次 近似 规划 
min 3 (filo) + (eo) fi, (14.52) 


B Ja) 是 各 列 为 了 Fes) A ax m Jacobi 4E PE, EO pt = 
e-e PX) — eR BA 1 AL, 可 以 由 求解 下 列 线 性 方程 组 得 到 ; 
TE IT Y p= TO EF), oe, foala]. 
(14.53) 
迭代 求解 (14.53) 的 一 个 算法 是 Gauss 方法 ， 这 个 方法 经 常 发 散 ， 
因为 了 的 二 次 近似 仅 在 近似 点 的 小 邻 域 中 有 癌 ，Levenbergc0 和 
Marquardt?" 修正 了 Gauss 方法 ,在 (14.52) 中 增加 一 个 “阻尼 
项 ,并 求解 问题 
min BEF) + oo) VF (a) +o 
(14.54) 
其 中 M0 是 一 个 参数 , 从 一 次 和 迭代 到 另 一 次 选 代 时 须 进 行 调 整 . 
在 基 种 意义 上 ， 这 个 问题 等 价 于 一 个 约束 最 优化 问题 ， 其 中 
(14.52) 是 目标 函数 ， 约 东 |r] <h 是 强加 的 ， 在 第 10 章 中 
简短 地 叙述 过 的 Goldfeld, Quandt, Trotter Ay J %09, 也 是 一 
个 类 似 的 小 步 长 二 次 近似 规划 方法 ， 最 a, Wilson 的 方法 是 
与 超 方 体 法 密切 有 关 的 ， 不 同 之 处 在 于 和 撼 阵 下 取 为 了 的 精确 
Hesse 阵 Vif (e*). Wilson 方法 的 讨论 可 以 在 Bealef7] 中 找到 . 


14.2 既 约 梯度 法 


本 节 的 讨论 集中 于 求解 有 约束 的 非 线性 规划 ， 其 方法 类 似 于 
解 线性 规 划 的 单纯 形 法 . 首先 考察 线性 约束 的 既 约 梯度 法 ,然后 
将 它 推广 到 非 线 性 约束 问题 . 考 碟 线性 约束 问题 


(LEP) min fle) (14.55) 
受 限 制 于 
Az=b, (14.56) 
20, (14.57) 


其 中 , f 是 一 个 连续 可 微 的 实 通 数 , 和 4 是 xn BE, bmn HE 
RIG. 


Hm<n, SRR o HERA A H w= (wa， a), 其 中 
a? = (m, +, RYT 为 基本 变数 向 量 或 依从 变数 向 量 , a = (wY,…， 
Onn) 为 非 基 本 变数 向 量 , 或 独立 变数 向 量 ， 相 应 地 , 矩阵 4 也 划 
分 为 A=[B, Cl, 不 失 一 般 性 , 这 里 假设 矩阵 和 4 的 前 m 列 对 应 于 
基本 变量 ， 进一步 假设 ， 对 应 于 向 量 e 中 分 量 的 4 的 xm 子 
矩阵 召 是 非 异 的 。 于 是 可 以 写 出 
Ba? -Ow =b, (14.58) 
从 而 
oe? = B — BOT, (14.59) 
些 外 , 我们 还 假设 基本 变量 也 是 非 退 化 的 , 即 x?>>0， 非 基本 变量 
称 为 独立 的 ,是 因为 对 它们 规定 某 些 数值 后 ， 可 得 到 (14.58) 的 唯 
一 解 . 
既 约 梯度 法 的 基本 想法 是 用 (14.59) 消去 oz (作为 wx 的 了 
数 )， 并 考虑 只 对 az 来 说 的 最 优化 问题 。 这 个 想法 被 用 于 下 列 方 
法 中 ， Wilde, Wilde, Beightler™? 通过 “约束 导数 ”的 概念 导 
WA PEE, Wolfe?” 的 必 约 梯度 法 、Zangwillee 的 凸 -单纯 
EE. 
从 (14.59) 得 到 用 下 列 公 式 表 示 的 既 约 梯度 7ER"". 
ra) = Vorf (aE (a), oY) — (BAC) Vaf (e(a), o). 
(14.60) 
现在 , 如 果 能 从 w* KA LEE HY i BELEA BE i PE a 
3h, 而 不 违反 关于 向 量 > 的 非 负 性 约束 , MA fe), 
这 个 步骤 可 实现 如 下 ， 给 定 一 个 能 行 点 2%, i=l, …, nm 计 
算 i oa 


pur | 0, m=O H AKCG ee og (14.61) 
一 (er 其他， 
并 令 
gekte _ B-iggN kel (14.62) 
于 是 gži = {gE tl gM kt1)T 下 一 个 点 gettin (GP kt gi KOT 为 
g atia po ti ` (14.63) 
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其 中 Oo. 由 下 列 关系 式 算得 . 
aly = max foyer tat” + agi ye? FSO}, (14.64) 
Gnas = max {ak1 0" + aye +1 SO}, (14.65) 
并 且 
Sa aie 1) 
=min{f (s+arrt) :OSSmin(o+, ata), 
a (14.66) 
当 aki Caka BT, o*** 由 (14.63) 确 定 ; 否则 , 对 某 个 了 有 
aP toh, aft =O, (14.67) 
就 从 基本 变量 中 除去 wr， 而 换 入 最 大 正 值 的 非 基 本 变量 ， 如 果 
ie" | <0, 算法 便 终结 , 其 中 s>0 是 某 个 小 的 预定 数值 . 


例 14.2.1 
我 们 在 如 下 问题 上 作 几 次 迭代 来 说 明 距 约 梯 度 法 : 
min Fw) 一 《ci)2 十 和 (wa)3 (14.68) 
受 限 制 于 
i (14.69) 
tH wa 十 oa 一 0， (14.70) 
xo, (14.71) 


假如 从 = (2, 1, 3, 1) 开始 ， 且 令 © = (wr m)”, oY? Cara, 
Ta)”. 于 是 


1 0 a f1 0 _f2 -1 
a | He (Bo) -|: oh c-| a 


| | (14.72) 
HVf(2")= (4, 8, 0,0)". REHAR RE 
8 21171 17/4\ /0 
0) a O- 
of l-1 ojlo 1j\0/. \4 
(14.73) 
But 2” *=(0, —4)7 H 


EE (ee 
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SUCH SORE MEK. HEM (14.64) 求 出 ol, CENETA 
的 最 大 的 a; . 
( ‘es )>0, (14.75) 


ARAB l=. AUB FRU a, 
0+ Oa, er 
oe joo, (14.76) 
从 而 at 3 因此 ai<af, 关于 a R Fata) MRA, KM 


(14.66) BE i=. FR, HAH =a, Mala, 


1, 2, 0)， 在 这 个 点 上 ，Vf(wm!) 一 (2, 8, 0,0), AA asd, 我 
WIERE, vs 进入 基 以 代替 ee. E 


1 ~1 0 一 工 2 0 
= B-1= 
mela ol Sl el 


(14.77) 
新 的 既 约 梯度 由 下 式 给 出 ; 
ao EE 
| 0 oa | —1]\o 2 
(14.73) 


Fh (14.61) 43 2%?—(—10, 0)7， 因 此 


E E tess DY, ies 
Fy a 3 a 1 1 3) 全 vel) 
其 次 我 们 计算 沿 着 2 的 步 长 ， 不 等 式 组 


a 0 14.80) 
( 2— 30a, ( í 
Ai 11000 必须 成 立 , 得 到 i=l, f=, obo. 关于 
az R fetar) 的 极 小 , 所 得 到 的 没有 受 限 制 的 步 长 是 
a 
% ei 
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Hett=(0, SY. 这样 


pi _2 ae ees | 

he i; yo a)- 7 | (44.88) 

1 ik oii 4 r$ 
z 8 oF 

要 求 读者 继续 计算 , 并 注意 可 收敛 到 最 优点 a*=( 子 , F, 0, L). 


这 个 算法 的 进程 (在 t ea 空间 ) 在 图 14.2 中 说 明 . 】 

上 述 既 约 梯度 法 由 于 锯齿 现象 而 可 能 不 收敛 到 满足 信 nhn- 
Tucker 条 件 的 点 ， 已 提出 若干 “ 反 锯齿 现象 ”的 技巧 去 克服 这 
个 困难 .一 个 建议 是 H 的 选择 方法 修改 为 : MI Rel <e H 
rier) >0, 其 中 s>0 是 某 个 预先 给 定 的 值 , 则 办 取 为 零 , 以 
此 来 代替 (T4.61) 给 出 的 公式 . 另 一 个 方法 是 McCormick” 33 
出 的 : 如 果 a PE fo THa) 沿 生 的 无 约束 极 小 ， 则 zs: 在 
Vite) 的 基础 上 进行 计算 . 

如 果 了 是 线性 函数 , 将 基 的 改变 规则 作 某 些 简 易 的 修改 , 既 约 
梯度 法 将 成 为 线性 规划 的 单纯 形 法 . 如 果 没 有 约 东 出 现 ， 既 约 梯 
度 法 就 成 为 最 速 下 降 法 ， 这 样 , 它 可 以 看 作 是 无 约束 方法 的 扩充 ， 
MoCormiok = 提出 了 既 约 梯度 法 的 一 个 修改 ， 它 可 以 看 作 蚌 线 
性 约束 问题 的 DEP 变 尺 度 算法 的 某 种 扩充 。 他 证 明了 , 倘若 某 些 
温和 的 条 件 被 满足 ， 则 他 和 的 方法 以 超 线性 速率 收敛 于 Kuhn- 
Tucker 点 . 

Abadie-Carpentier™ PENET aa ce La 
HHE. HR SRE] 


(NEP) min f(s) (14.84) 
受 限制 干 

hw)=0, ¢=1, +, m, (14.85) 

Beara, ` (14.86) 


其 中 ts hy, hea, as hm 假定 是 vE R" 的 连续 可 微 函 Ry. 且 MST, 
BE PAE ToT] E o 假 定 是 非 退 化 的 ， SR ei — 4, AERA ow? 
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可 以 划分 为 两 个 于 向 量 w= Ce, oo, 其 中 
eC R”, eel Rom 
JEDI, a= (a, a%9)7, B= (B®, BOY, t1 


BP Yor a? 10> gE, a _ Nec (14.87) 
Ale . . 
hilat) Ohi vo) T Ben, ere 
Vash, (a) = | See ance, aan i=l, > M 
(14.88) 


是 线性 独立 的 ， 也 就 是 说 ， 各 列 为 向 量 Vashi (2°) m x m PEA” (a°) 
是 非 异 的 . 容易 验证 , 在 o 处 问题 (NEP) 最 优 性 的 Kuhn-Tucker 
必要 条 件 是 , 存在 向 量 ER”, WER”, FG 


Vafa?) -5 BVa), (14.80) 
Vaf) È ve) 0 (14.90) 
其 中 

O RSO, Hah make’, (44.91) 
入 一 0， 若 BP o> as DSa", (14.92) 
| <O, # afm BY, (14.93) 

因此 
p= [do T af (2°), (14.94) 


P= Vorf (a°) — A7 (a?) [42 Ce) ] Vaf (Co), (14.95) 
其 中 AN (a) 是 (n—m) xm 阵 ， 它 的 列 是 向 量 Vorde). 注意 ， 
如 果 约 束 是 线性 的 ,入 就 是 类 似 于 (14.60) 的 既 约 梯度 . 由 此 可 知 ， 
对 于 每 个 能 行 的 22， 我 们 可 以 利用 上 一 方程 计算 向 量 0， 如 果 和 
还 满足 \14.91) 至 (14,93), 那么 (NEP) 的 最 优 性 必要 条 件 在 w? 处 
成 立 ， 广 义 既 约 梯度 法 基于 从 一 个 能 行 的 e 以 迭代 方式 移动 到 
能 行 的 一, m”, S, 直到 抵达 点 2, 在 必 处 由 (14.95) 算 出 的 兴 满 
fe (14. ECA. 93). 假设 有 一 个 能 行 的 a” MERI AY OE E 
这 三 个 关系 式 , 那 就 按 下 式 改 迹 非 基本 向 量 的 当前 值 为 
D0， (14.96) 
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其 中 地! 一 0, 如 果 

a}* <a} A M>0, Rat = BY" MAr<O0, (14.97) 
否则 ， 按 照 依赖 于 这 方法 的 具体 做 法 的 规则 ， Ey A 
ze Ht 一 个， 

1. 在 GRG 做 法 中 , 每 当 (14.97) 不 成 立时 我 们 取 iH = 一 对 . 
注意 , 如 间 我 们 上 面 看 到 的 , 如 果 约 束 是 线性 的 , BRA cH 的 这 种 
选 法 和 Wolfe” 所 用 的 选 法 是 一 致 的 . 

2. 在 GRGS 做 法 中 , 首先 用 下 式 求 出 指标 8 

| Az | =max | 季 |， (14.98) 


其 中 指标 7 在 (14.97) 不 成 立 的 指标 集 上 变化 .然后 令 


k+l _. 0, j#8, 
kt -f yk gee (14,99) 
如 果 最 优化 问题 实际 上 是 一 个 线性 规划 ， 那 么 这 个 做 法 与 单纯 形 
法 一 致 . 
3. 在 GRGC 的 做 法 中 , TEP Hot = 一 小 .一 个 循环 由 
KERER. HF k=l, e, n, 我 们 取 
g= | 0, J*k, 
=A, j= k, 
除非 是 一 基本 变量 的 指标 或 (14. 97) 成 立 ， 这 时 第 5 次 迭代 省 
略 . 在 = 之 后 转 回 到 %=1, 如 此 等 等 . 
用 这 些 做 法 之 一 确定 FER" 后 , 取 步 长 Gees 的 一 个 试探 
值 ， 比划 Gini 9, 并 确定 


(14.100) 


BI, a4 6b >, 
aye = op E at tiag <a, (14.101) 
wp * + OF haley, HAE. 


为 了 保持 能 行 性 ， 用 Newton SARK, Rm PRA 
eg «+, w8 的 tm 个 非 线性 方程 . 
hw3, 2) =0, d=1, «+, m, (14.102) 
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于 是 , 在 Nowton 法 的 第 了 次 选 代 , 有 公式 
geigi [AN (CD Da th ws, ery, (14.108) 
HH h= (hi, «+, An)’, Hx 1=0 有 有 22 一 0 公式 (14.103) 一 
直 使 用 到 下 述 情况 之 一 发 生 : 
1. 在 几 个 相继 的 迭代 中 ， 模 elan, a”)! 增 大 ， 这 时 , 用 
SET AFH Olas 减 小 ,计算 (14.101), 然后 返回 求解 (14.102). 
2. 我 们 得 到 
Fae, BNR) > F (m, grok), (34.104) 
这 时 的 校正 与 情况 1 相同 ， 
3. 对 某 个 点 (ea 5 oY) 在 (14.86) 确 定 的 范围 之 外 。 这 
时 ， 在 连接 oP bj ehi 的 线段 上 求 一 点 se'!， 使 得 对 某 个 7 有 
ah = af! 或 cet BP, 并 改变 当前 的 基 ， 比 如 说 以 23"' 代替 变量 
oF, Khe s 用 类 似 于 单纯 形 法 中 的 某 个 规则 来 确定 ， 例 如 ， 
可 以 用 关系 式 ( 略 去 了 迭代 指标 ): 
CAORCAC 7 C meget AEE) e 
(14.105) 
其 中 AY (ep FETT I aE), e, Ahn (Z)/Aay) FE = h, 
T) 的 值 ， 48(z))71 是 矩阵 《45(z))-1 的 第 7 列 ,而 
vo— min{(gm re 一 ax 【BY 一 0， (14.106) 
用 新 的 基 试 解 (14.102). 
4. EAU, BITRE, 


Alet, ZF) <e, (14.107) 
其 中 :是 一 个 小 的 正 数 . Æ 
BP > oP > a, (14.108) 


则 取 ete (oP, 2), HRPM, 车 ca" 的 第 ? 
个 分 量 恰 是 上 界 或 下 界 ， 则 按 情形 3 一 样 改变 基 ， 当 满 足 最 优 性 
必要 条 件 的 一 点 找到 时 , 计算 结束 . 

进行 计算 的 实际 方案 包含 很 多 重要 的 考 虚 ， 读 者 无 疑 已 认 
识 到 ， 既 约 梯度 法 用 于 非 线性 约束 是 不 简单 的 .有趣 的 是 ， 在 
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Colville" 关于 非 线性 规划 程序 的 比较 性 研究 中 ， 广 义 既 约 梯 度 
法 在 试验 的 方法 中 是 最 好 的 一 个 . 


14.3 WBE 


A ARAL, 我 们 研究 了 同性 及 其 推广 不 起 主要 作用 的 计算 
方法 ， 尽 管 如 此 ,很 多 算法 对 于 凸 规划 可 以 更 容易 地 实现 , 这 时 选 
代 的 极限 点 通常 满足 最 优 性 的 必要 充分 条 件 ， 这 是 一 个 并 非 每 个 
非 线性 规划 都 具有 的 特 狂 . 这 里 讨论 的 方法 适用 于 上 只 有 某 种 凸 性 
的 非 线性 规划 :， 割 平 面 法 的 基本 原理 是 , 非 线 性 规划 的 能 行 集 用 
有 限 个 闭 半 空间 来 近似 , 并 求解 一 系列 近似 的 线性 规划 . 

考虑 问题 
(1) min Go(#) (14.108) 
受 限制 于 ; 

gf{e)20, 2=1, =L (14.110) 
其 中 加 是 闭 正常 凸 函 数 ，9 是 闭 正 常 四 函数 , i 一 1,…, i， 这 个 
非 线 性 规划 容易 修改 成 具有 线性 目标 函数 的 等 价 规划 ， 定 义 一 个 
新 的 变量 OCR, RMI HA 


(II) min wo (14.111) 
受 限 制 于 
g:(2)>=0, i=0, 1, =, L, (14.112) 
其 中 
gol2) = wo— ol) (14.113) 


是 闭 正 常 四 函数 。 这 样 , 通过 增加 一 个 附加 变量 和 一 个 附加 约束 ， 
我 们 将 规划 (I) 变 为 CO), 使 得 w' D 的 解 的 充 要 条 件 是 (eu， 
c) 为 (ILD We, H e=). 所以, 不 失 一 般 性 ， 可 以 考虑 凸 
规划 问题 
(CPP) min f(s) =c" (14.114) 
受 限制 于 

g(@)>0, i=l, ++, m, (14.115) 
其 中 e= (ey, a, 2, G7, 92, to Jo ÆR EHHE HY OR, 
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令 
G = fe: g(a) 20, i=1, =, m}, (14.116) 

FRE G LS TE A PR REA SR MB — PRR TCR" 
中 ,这 里 了 为 

T= {rwE R", Av>0}, (14.117) 
MF eel, gpa CR" HE gs WIRE MRA, Re SL 
4.377), MECag(a) 蕴涵 

KY) SJT) +8 (y—@) (14.118) 
对 于 每 个 y€ R har, MR g 在 > 是 可 微 的 , MA E= Ygl, 
我 们 将 假定 , 对 于 ee, 


agl) #9, i=], cre, M, (14.119) 
FHARA 
Liege), i=l, o, m (14.120) 


是 有 界 的 . 例如 ， 当 g EEn, AA E E ED RN 
现在 可 以 叙述 求解 (OPP) WB FRR, Ce Kelley 和 
Cheney-Goldsiein’™ 导出 的 ,我 们 将 称 之 为 KCG BE. 
工 求解 线性 规划 , minf(w)=c?w, SR BMT eT, H Re 
是 最 优 解 . oe 属于 集合 
Ge)={a:eET, glo) > — se, t=1, =, m}, (14.121) 
其 中 是 一 个 小 的 正 数 , 则 算法 停止 ; (CPP) 的 一 个 最 优 解 就 达到 
了 .否则 , S k=0 并 进 到 步骤 2. 
2. WET AWET, H AECL) 时 , 根据 
J», (ee) = min{g,(a*), $=1, ---, m}<0 (14.122) 
求 出 指标 w EA E E Ign. ARERR: 


min cfg, (14.128) 

Gul, @) = g(a") + (ENTE), h=0, 1, +, k, 
(14.124) 
ET,. (14.125) 


3. 令 中 是 上 述 线 性 规划 的 最 优 解 . TEGE), wW 
266 


法 停止 , BS k~k+1 并 转 回 步骤 2. 
注意 ， 由 gi 的 凹 性 推 得 的 《14.118) MAR AA. 124) 解释 了 
APERE. RAÄ EGE, 于 是 至 少 有 某 个 指标 s 使 得 
g) <e. H EEI), 由 
P +E" (@—a*) 20 (14.126) 
we HIE SP] ARETE Gp AUST A E (14.126) RL a, 而 
包含 在 (14.126) 定义 的 半空 间 中 ,用 Sy 表示 第 次 迭代 的 第 2 
步 中 被 求解 的 线性 规划 的 能 行 集 ， 这些 集合 是 一 个 套 一 个 的 ,也 


就 是 
CS (14.127) 


TERE REARS, AR RPE KE A KE A 
的 约束 集合 中 去 。， 在 每 次 迭代 时 增加 一 个 新 约 东 , 这 使 人 们 想到 
去 利用 求解 线性 规划 问题 的 对 侦 单纯 形 法 .现在 叙述 并 证 明 
上 四 规划 KOG 方法 的 收 敏 性 . 

定理 14.1 

Bon mk RRORTCR LOAM RH EBA 
CT E, 3t i=l, =, m, 次 梯度 集 2gi(w) 是 非 空 的 , 且 存 在 五 使 
得 

sup{lel f° Eag), i=l, +, mwET} EK, 


(14.128) 
又 假定 (CPP) 的 能 行 集 G 是 非 空 的 , HASET H. $ 
BB egaa aM) >0}, (14.129) 
其 中 So T. MR oe S, 使 得 
FCa*+t) =c" = min {e"a a € Sy}, (14.180) 


AFJ w) 包含 着 一 个 子 序 列 , 它 收敛 于 CCPP) 的 最 优 解 . 
【证 明 ] 首先 由 (14.127) 注 意 到 {fe} 是 单调 递增 的 ， 因 
此 , 如果 {2*} 包 售 一 个 子 序列 收 伍 于 一 点 CE, 那么 (LF @)} 妆 
HTF"), Hat 是 (CPP) 的 解 。 现 在 假设 1) 没有 一 个 子 序列 
KAF GRR. BARE a>, RMT A=, 1，…, kA 
Ga, (a )=min{g(2*), i=], =, m}<—a, (14.181) 
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ae ott 使 re 在 Ss 上 取 极 小 值 , 那么 OME, H 
Jal H (ED? (aka) 0, h=0, 1, >, k, 
(14.182) 
从 上 面 的 两 个 关系 式 和 Schwarz 不 等 式 , 可 推 得 
ac ga (a) < (ENT attt— a") CK jotta} , 
(14.133) 
因此 对 于 指标 的 每 个 子 序列 {hy}, 我 们 有 
lat —of >, <p. (14.134) 
即 {a*} 没有 Cauchy 子 序列 , 但 {mt}cCT, B {0} 是 有 界 的 , 这 就 
得 到 矛盾。 J 


逐次 构造 割 平面 ， 并 求解 近似 线性 规划 以 找到 点 列 {fz ， 所 
得 点 列 的 典型 行程 示 于 图 14.3 中 . 


14.3 KCd AFHR 


$1 14.3.1 
考虑 凸 规划 问题 : 
min f (e) =4r,-+5 14.135 
受 限制 于 SP C0 
; x(a) = = (x1)? — 2aryrg — 2 (arg)? +4220, (14.136) 
aw) = — (@1)? — (æ)? + 4a, — 3D, (14.187) 


T= {a:a06 R?, 4>a>0, 4a,5>--4}, (14.188) 
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应 用 KOG 割 平面 算法 ， 首 先 求 解 线 性 规划 minfa), ZR iT 
SET, RRE L= (0, —4), 在 这 点 处 f(2%) = —20, gi) = 
— 28, ga@")= —19, H s=1. AAA KH (14.136) 在 违反 最 
多 ,我 们 构造 线性 约束 


gala”) + (e—a?) TV gw) 0, (14.139) 
BN 
Qin + dara + 90, (14.140) 
求解 线性 规划 : 
min f(e) = 42, + Bra (14.141) 
受 限 制 于 
2w; + dvs + 920, (14.142) 
4>-2,>0, (14.143) 
 4>ma—4, (14.144) 


我 们 求 得 最 优 解 在 s* 一 ( 池 ， 一 全 ,在 这 点 处 
yeman no- 所 wo-- 时 


Hs=2. 这 样 ,我 们 增添 一 个 约束 
gala) + (@—a@*)"Vga(at) 0, (14.145) 
BO 
— 12r, +32w +101 >0, (14,146) 
FEE HB Be: BOY (14.141) (14.144) ch, 求 得 新 的 最 优 解 在 
| 29 155 ), 


28’ “56 

FER f(@)=-9.7. J 

要 求 读者 绘制 上 述 问题 的 图 、 并 观察 这 个 算法 相当 缓慢 的 
进程 ， 对 于 某 种 特殊 类 型 的 凸 规划 ，Levitin、Polyakc2 和 
Wolfe’? 研究 了 KCG 割 平面 法 的 收敛 速率 ， 得 到 的 结果 令 人 
Re, ARAM RPE AH ERR OR 
管 如 此 , 与 效率 离 的 对 侦 单 纯 形 法 相 结合 后 , 对 于 求解 适当 规模 的 
CAU, 割 平面 法 仍 是 一 种 有 用 的 方法 ， 在 非 凸 规划 的 情况 下 , 这 
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个 方法 完全 无 效 ， 这 症 因为 在 每 次 迭代 中 加 入 的 线性 约束 可 能 割 
去 能 行 集中 包含 最 优 值 点 的 那 部 分 . 

有 趣 的 是 ， 在 制 平面 法 的 每 次 迭代 中 所 要 解 的 线性 规划 的 对 
fi, FARM Dantzig, Wolfe? 的 "广义 规划 ”( 分 解 ) H 
法 所 要 解 的 线性 子 问题 ， 

也 许 影 响 到 刚才 所 述 方 法 的 效率 的 最 重要 步 又 是 制 平面 的 选 
法 .已 对 基本 CG 方法 提出 了 若干 修改 、Veinoit%9 ju g P 
MET RNAV AR RM, 如 我 们 在 第 6 章 看 到 的 , 它 确 
定 了 一 个 凸 能 行 集 ， 制 平面 是 用 实际 求 出 能 行 集 的 支撑 超 平面 来 
构造 的 因此 ，Veinott 算法 称 为 支撑 起 平面 法 , 并 被 用 来 求解 由 
(14.114) 和 (14.115) 给 出 的 问题 CPP), HEP gi, ++, gm 假定 为 
ESE HY A a. FRA UO) BEWARE SF BAM, 并 假定 
它 包含 在 由 (14.117) 确 定 的 紧 致 集中 .还 假定 存在 一 点 y, 使 
得 

gi >0, i=l, ++, m, (14.147) 
AE H TF PE RAR e 

1. 支撑 超 平 面 法 的 第 1 步 与 KCG 算法 的 相应 步骤 一 样 . 

2. He eT, 使 ow*EG(e), H y 满足 (14.147), 求 一 个 数 
OF, 使 得 点 


z= (1—0 yO (14.148) 
是 能 行 的 , HHA s AE 
ga) =0, (14.149) 
求解 线性 规划 
minor, (14.150) 
(e—2)V9,,(2) 0, h=0, 1, e, k, (14.151) 
ee T, (14.152) 
3. Beak? FeAl — AE Re. 如果 
aE G(s), 


那么 算法 停止 ; SUE k= b+ 1 HH ER 2, 
”在 图 14.4 中 说 明 一 个 典型 情况 ， 注 意 , 虽然 为 了 求 得 能 行 集 
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图 姓 .4 支撑 超 平面 法 
边界 上 的 点 , 需要 额外 的 计算 , 但 是 这 使 我 们 能 构造 出 比 KOG 方 
法 更 深入 的 切割 、 支 撑 超 平面 法 前 收敛 性 可 以 在 上 而 叙述 过 的 假 
设 下 得 到 证 明 . 

至 今 讨论 过 的 荐 平面 法 的 一 个 明显 缺点 是 ， 从 一 次 迭代 到 另 
一 次 迭代 , 线性 规划 子 问题 的 规模 不 断 增 大 , 这 是 因为 割 平面 约束 
RRMA CHWARAE. TRF Se 
的 工作 集中 在 去 掉 非 积极 约束 的 问题 上 , 或 更 一 般 地 , 用 线性 约束 
逼近 非 线 性 规划 的 能 行 集 的 问题 ,而 不 要 求 一 个 套 一 个 . Topkis™™ 
导出 了 这 样 的 方法 ， 且 在 类 似 于 本 节 早 先 所 述 的 假定 下 证 明了 收 
SPE. Eaves, Zangwill™ 在 更 一 般 的 框架 下 研究 了 制 平面 法 , 它 
包括 了 割 平面 法 的 KCG 做 法 ，Veinott 做 法 ，Topkis 做 法 ， 以 及 
若干 其 他 做 法 作为 特殊 情况 . 


14.4 BHOR 


在 本 节 中 我 们 寻找 线性 函数 在 RP — PRE ERAME, 
这 个 集合 是 某 些 凸 集 和 了 凸 集 的 补 集 之 交 . 这 样 的 问题 通常 是 一 
个 非 凸 规划 ， 称 为 相 补 凸 规划 或 “ 反 向 RY. Rosen?” 和 
Avriel, Williams 导出 的 解法 包含 ， 用 线性 约束 逐次 RR 
AR, 从 而 得 到 一 系列 凸 规划 , 用 早先 讨论 过 的 方法 之 一 , 诸如 
E RMR a, 解 这 些 同 规划 .为 了 证 明 下 述 方法 的 收 
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AFE, BAIR SE Zangwill?- By — 444 —- RE EB E, E 
还 能 用 来 证 明 本 书 介 绍 的 很 多 其 他 算法 的 收敛 性 


考虑 非 线性 规划 问题 
(CCP) min f(s) =c"s (14,153) 
受 限制 于 
(D0, i=1, =, m, (14.154) 
Ai(a)e>0, t=1, =, p, (14.155) 


其 中 cE BR" 是 给 定 的 非 零 向 量 ,， ge A A SP EE AEE A h A 
数 和 种 函数 . 定义 

T= {0E R”, gle) >00, t=1, --, m}, (14.156) 

U ={a:e€ R", hle) >00, 1=1, 看， (44.157) 
并 令 X=TNU. ER, BAM g EREN, RAT IES, MA 
(CCP) 一 般 不 是 凸 规划 .实际 上 ,了 了 是 mw 个 开山 集 的 补 集 之 交 . 
我 们 特别 感 兴趣 于 gs 是 是 的 和 非 线 性 的 情况 因为 我 们 处 理 的 
是 非 凸 规划 , 所 以 不 能 保证 算法 收敛 于 Ff 的 整体 约束 极 小 值 点 , 但 
是 我 们 将 证 明 , 除了 某 些 退化 的 情况 之 外 , 算法 收敛 到 局 部 极 小 值 
点 .对 于 《CUP), RERET REMER: 

1. BEFRA ERRA HAR (COP) 是 强 相 容 的 ， 也 就 是 至 
DFE Ree X, 使 得 (14.154) 和 (14.155) 作为 严格 不 等 式 成 
X. 

2. 对 于 2zE 瑟 ,定义 积 极 约束 集 为 


T(z) = {i: g(t) =0}, (14.158) 
L(@) = {t:h,(@) = 0}, (14.159) 
FE, 对 于 所 有 的 数 ro, LEI) a, IEL), 只 要 成 立 
TiP0， gid, att, it 1-9, (14.160) 
MOR j, j=l, …, n, 有 
Py Nog ee (2) 
fy aa, On; t o 130, P9 ee) 


3. Sp Roe HLH, 如 果 存 在 -个 向 量 人 使 得 上 (人 2) < 
O, MPRA ER Ace) SO FARA ALN, 假定 在 (14.154) 和 (14.155) 
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中 的 每 一 个 不 等 式 都 是 非 平 凡 的 . 

满足 最 优 性 Kubn-Tucker 必要 条 件 (3.72) 至 (3.74) 的 能 行 
点 叫做 K-T 点 ， 可 以 证 明 , IRENE RAAB, 对 (COP) 的 
每 个 解 存在 Kubn-Tucker RF, Hejh, > K-T 点 党 必定 满足 

Ta") U Lila") 46. (14.162) 

后 一 个 结果 由 (3.72) 和 (3.783) 导 出 ， 这 是 因为 如 果 . 上 面 的 集 台 是 
空 的 , BBA, 分 别 相 应 于 约束 (14.154) 和 (i4.155) 的 折 有 Kuhn- 
Tucker RF N, ?二 1，…-,m 和 a, V1，…', p, BERND, 这 
VIG") =e 是 一 个 非 零 问 量 相 了 矛盾 ， 

还 可 以 验证 ，(COP) 的 局 部 (或 整体 ) RATA AH AE E K-T 
A. BX, 假设 zx E K-T A, 那么 它 必须 满足 (14.162)， 因 此 对 
FRET f 


ty O(a") oy a Oh lew’) 
oy 2 A Gere ta m a +0, (14183) 


从 而 , CsE X 上 取 极 大 值 的 必要 条 件 不 能 在 w* R. 
ERB CCCP) ARERR MNT. MSRP RETIRE XT WR, 
按 下 面 方 式 产 生 能 行 点 序列 {2*}: 给 定 一 个 点 2 人 及 ,对 (14,154) 
中 的 函数 go HERT 忱 的 一 阶 Taylor 近似 式 来 代替 换言之 ， 
用 下 列 线性 约束 代替 ge) 0, 
g(a, a) = 9a") 4+-(a—a*) Vg (o)20, t=1, ++, m, 
(14.164) 
如 果 令 
Tak) = {a: ge, o)>0,4=—1, ++, m}, (14.165) 
我 们 得 到 一 个 新 的 规划 , 
(CCP,) mincs (14.166) 
受 限 制 于 
2EX (A) 一 人 (cot Ny, (14.167) 
这 是 一 个 是 规划 .下 一 个 点 o** 取 (COP,) 的 任 一 最 优 解 ， 这 也 
就 是 , 当 用 Ar Jem (COPO 的 最 优 解 的 集合 时 ,我 们 从 AP 中 选取 
okt 我 们 将 证 明 , 如 果 @ Hf CCCP) 是 能 行 的 , 那么 序列 {o} 中 
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每 一 个 也 是 这 样 。 此 外 ， 还 能 证 明 ，{w*} BOE PUL EA i oe 
于 (CCP) W K-T. 
在 转向 收敛 性 问题 之 前 ， 我 们 用 一 企 简单 的 例子 说 明 所 提出 


的 算法 . 
i] 14.4.1 
考虑 规划 
min f (a) =% (14.168) 
受 限制 于 
91(@) = (m —3)? + (m —2)—18>0, (14.169) 
hlæ) = — (a, —4)2— (aq)? +1620, (14.170) 


图 14.5 中 阴影 部 分 表示 能 行 集 , 它 显 然 是 非 凸 的 。 在 这 个 癌 题 中 

有 三 个 开 -T 点 、 两 个 局 部 极 小 值 点 分 别 在 《0，0) 和 (6.4，3.2)， 

不 是 局 部 极 小 值 点 的 区 -TT 点 在 (8 十 M13, 2), ERRI 从 如 = 

(7, 0) 开始 , 然后 用 a 关于 wr 的 一 阶 Taylor 近似 式 代 赫 gi: 
Gita, a) = Bar — 4wa — 49, (14.171) 

FESR AEF AN BR 

(CCP,) minf (s) = 2, (14.172) 


Aå {x x°}=Q 


&, x!) 90 


ay(x)=0 x. 275=0 
P44. 相 衬 凸 规划 


a74 


Se PR isl FA 


gi, x°) = 8a — 4e — 4920, (14.173) 
hæ) = — (a — 4)? — (aa)? +1620, (14.174) 

下 这 个 规划 的 解 得 到 
Ao = {(4.126, —3.998)}, (14.175) 


因此 , RIER v= (4.126, ~3.998), 并 在 w 展开 go 再 求解 所 
得 到 的 凸 规划 等 等 . 


表 1.1 列 出 了 这 算法 的 欠 代 过 程 所 产生 的 召 规划 的 最 优 解 . 
可 以 看 到 ， 在 五 次 迭代 中 这 些 凸 规划 的 最 优 解 相 当 接近 于 一 个 局 
部 极 小 值 点 . 

初始 点 的 选择 ， 对 于 凸 规划 的 解 所 收 全 到 的 区 -了 点 的 位 置 
有 重要 影响 、 为 了 说 明 这 个 影响 ,假设 同一 例题 的 初始 点 取 为 
a®=(7.0, 2.1). 这 时 , 通过 三 次 迭代 ,这 算法 收敛 于 另 一 局 部 极 
小 值 点 , WE 14.2 所 示 . 

表 14.2 


在 这 两 种 情形 中 ,最 优 解 集 A 由 单个 点 组 成 ， 为 了 说 明 最 优 解 集 
可 由 多 于 一 个 点 组 成 , 选取 和 9 一 (7, 2)， 疯 在 我 们 得 到 
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gile, g) =8a,—-53>0, (14.176) 
ABBR 4 为 


IC za): =, aly E, (14.177) 


Formas WA ERA. MK 
an (S, 2), 


FRA (CCP), 就 得 到 一 个 新 的 集 AY, 它 是 一 个 线段 ,我 们 还 可 
选取 of 2, 在 所 有 后 面 的 迁 代 中 总 选取 og — 2， 最 终 收 敛 到 第 三 
个 有 -全 点 (3 十 Mi3, 2), 它 不 是 一 个 局 部 极 小 值 点 。 I 

我 们 来 检验 相 补 凸 规划 算法 的 收 伍 性 . 首先 注意 , 这 个 算法 
可 以 通过 点 到 集合 的 映射 五 来 描述 , F 的 半 连 续 性 在 后 面 的 定理 
中 起 重要 作用 .我 们 提醒 读者 , WRB cCX CR, 可 唯一 确 
UY CR 中 的 一 个 子 集 了 42)， 则 五 是 一 个 点 到 集合 的 映射 ， 抱 
一 种 方式 , 如 果 (7 ) 表示 了 HERRERA, WRT PIX 
映射 到 oY) F, 采用 记号 : P:Xo(Y). 当然 , X AY 可 以 是 
同样 的 集合 ， 与 这 种 映射 有 关 的 一 个 重要 性 质 是 上 半 连 续 性 %. 
点 到 集合 的 映射 了 :了 ->o( 了 )， 称 为 在 点 TE 天 是 上 闪 连 续 的 
Case), 如 果 {e}os, fA }y (MEA fo 和 {fy*} MOT T 
Ay PEX, PERG) CY RAME YC). FRIELE 
连续 的 , MREERT A CCX 是 上 半 连 续 的 . 要 求 读者 把 这 里 
定义 的 上 半 连 续 性 , 与 第 6 章 中 引进 的 下 半 和 连续 性 作 比 较 ， 

作为 这 个 定义 的 一 个 直接 结果 , 我 们 得 出 引 理 . 

引 理 14.2 

设 点 到 集合 的 映射 F: Xo (VF) 在 2 是 上 半 连 续 的 ， 如果 
{2 一? By F(a), BS, V) HET y 必 在 集合 F(a) 
mn. 

【证 明 】 WR y 是 {y} 的 一 个 凝聚 点 , 那么 存在 一 个 子 序 列 
fy} Wek Bly. A ye F(a) 且 序 列 fo} 是 {2 中} 的 一 个 子 
序列 , 因此 {o>z， 由 卫 的 上 半 连 续 性 得 到 gE R(x). J 


a6 


其 次 ， 我 们 叙述 并 证 明 Zangwill 定理 co py AY TE AB ie BY IZ 
x, 

1214.3 

设 点 到 集合 的 上 映射 A:X->o(X) ME TAX BX TH 
族 的 一 个 映射 , 并 设 X 是 紧 致 集 . 

假设 4 满足 下 述 条 件 : 

(如果 26E 开 不 是 (GOCP) 的 K-T 点 ， 那 么 VE4(c) 蕴涵 
荐 f(y) <f(@). 如 果 wE 是 (GOCP) HK-T A, 那么 YE AC) 
WH f(y) =f (a). 

Gi) REY A SERRA ee X 是 上 半 连 续 的 . 

MA, wy ao CX, aC (oo 产生 的 任何 序列 {fo}, BAP 
+ FFARR F (COP) hy K-T A. 

【证 明 】 序列 {f(w*)} EEA FAB X 是 紧 
致 集 ), 所 以 lim{f(w*)} FFE, MEAS. 

EHX 的 紧 致 性 ,序列 {2*} 必定 包含 一 个 收敛 子 序 列 , 比如 
(o), 具有 极限 w EX 中 ， 对 于 这 个 子 序列 也 有 lim (f(2")} = 
f. BRR}, RHEE CS 的 子 序列 ， 所 以 对 于 它 还 
EA lim{f(e"*)} =f. RE, fo} >a", aE Ae") HAEE 
半 连 续 的 ， 因 此 由 引 理 14.2, {0%} 的 每 个 凝聚 点 w*”* 在 Ale") 
H, R G) KER: WR oo REETH, BWA Ofe). 
然而 , 因为 了 是 连续 的 且 lim {f(o")}-/, RURAL) =f, 
并 且 也 有 f(z') 一 Ff， 因此 点 他 必定 是 K-T 了 点 J 

为 了 对 于 所 提出 的 算法 应 用 这 个 定理 ， 我 们 必须 指出 这 算法 
实际 上 是 点 到 集合 的 映射 , 具有 定理 中 所 述 的 性 质 . 

WEEP KCN, BREAK ge, o) 来 近似 约 东 
g(a) =O, 可 以 抽象 地 看 作 一 个 映射 4, CEA 变 成 系数 集合 

{Vg E), (Vg) gla"). 
因为 % 是 连续 可 微 的 , WA CAER A 是 连续 的 , 从 而 是 上 半 
连续 的 巴 ， 凸 规划 (COPz) 的 最 优 解 集合 4(z59， 可 以 看 作 是 系 
数 集 合 上 的 一 个 函数 。 抽象 地 ， 可 以 定义 A 为 从 系数 集合 到 如 
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中 集合 的 一 个 点 到 集合 的 上 映射， 这样 , A-AA 是 一 个 从 并 到 
E 中 子 集 的 .复合 的 点 到 集合 映射 "， 我 们 将 证 明 , 实际 上 它 蚌 由 
X BX 的 子 集 族 的 映射。 进一步 我 们 还 将 证 明 ，4 是 上 半 连 续 
A, FH «°C X 是 (COP) 的 -了 点 的 充 要 条 件 为 zw*€ 4(w"). 
定理 14.4 
Bea A EM X Bo CX) 中 的 ， 
【证 明 】 Fete X, RA AC 是 (GCCP 的 最 优 解 集 合 . 
WHA SCAG), IEX). BD 
g(a") + (B— 2)? Vg la) SO, i=l, =, m, (14.178) 
AMS) 20, l=1, =, p, (14.179) 
因为 gy 是 凸 的 ,所 以 
pE) > g(a") + (E)N gw’), (14.180) 
AW WE g.(4) 之 0， 因 此 ET, PA@)cKX, J 
下 一 个 定理 确立 了 定理 14.3 的 性 质 G). 
定理 14.5 
向 量 是 (CCP) 的 一 个 K-T SAFER ARIE oC ACO"), 
GER] Bi e EA K-T 点， 于 是 由 定理 3.8， 存 在 屁 
FO, a” 满足 (3.72) 至 (3.74), 这 些 乘 子 的 存在 性 ， 等 价 于 史 是 
凸 规划 (COP,) 之 最 优 解 的 充 要 条 件 ，(COP.) 是 将 (14.154) 在 只 
举 近 线性 化 而 得 到 的 , CRE eC AC"), RS, Hee Alo’), 则 
存在 乘 子 满足 (3.72) 至 (3.74). BR, w' 是 (CCP) k K-T ALY 
在 建立 了 收敛 性 定理 的 性 质 G) 之 后 ， 现 在 我 们 转 到 性 质 
《i)， 即 验证 A EEEE, ak E Al FH Dantzig, Folkman, 
Shapiro” 和 Williams®” 的 下 述 结果 ， 已 改写 得 适应 我 们 的 情 
ii. 
定理 14.6 
假设 对 于 任何 x€ X, 没有 一 个 线性 约束 94(z, Z)>0 是 平凡 
BY, 并 且 存 在 分 使 得 
译注 严格 地 说 ，4 一 4s41 是 一 个 从 工 到 a 中 子 集 族 的 复合 的 点 到 集 映 归 
原文 的 说 法 不 够 严格 ,有 若干 处 奖 似 。 
ara 


GB, D0, j=1, +, m, (14.181) 
A(B)>0, I=], =, p, (14:182) 
那么 点 到 集合 映射 AT) 是 上 半 连 续 的 . 
JA, RNR ERDER”, 
定理 14.7 
WR A E XAY pH EEEk, A EY AZRE 
半 连 续 映 射 ， ARAM AMA A= Adi FE X BZ PH EEE 
射 . 
既然 上 述 映 射 是 上 半 连 续 的 , 那么 ,为 了 对 复合 映射 4= AA 
验证 收敛 性 定理 的 性 质 Gi), 只 需要 证 明 , 对 于 映射 Ao, 定理 14.6 
的 假设 条 件 成 立 . 
定理 14.8 
线性 约束 Gilo, 2) >0 是 非 平凡 的 . 
【证 明 】 由 本 节 开 始 时 对 《CCP) 假设 的 正则 性 条 件 (3), 4 
IR ge) >0 是 非 平凡 的 , 即 存 在 向 量 wEB* 使 得 gi(w)<0.， 于 
是 从 gi 的 出 性 可 得 
gilw, z) SRW) <0, i=l, = 
因而 9%i(o，2) 关 0 是 平凡 的 ， J 
现在 必须 证 明 , 存在 至 满足 (14.181) 和 (14.182)， 定 理 4.19 
在 这 里 将 证 实 是 有 用 的 ， 
定理 14.9 
设 z 在 卫 中, 则 不 存在 人 满足 (14.181) 和 (14.182) 的 充 要 条 
HER: 存在 数 11, ts Tm, G1, “°°, Pps 满足 
0, i=l, =, m 和 gO, bal, =, p, (14.184) 


» M, (14.183) 


.185 
ay tt 2 179. a) 
使 得 
RAEN Oh (2) a 
pan i Om; Teale Bar; ae ae a 
(14.186) 
rgi(z)=0, d=1, «+, mM, (14.187) 
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gin(a)~=0, t=1,-+, p. (14.188) 

GEA] 很 设 不 存在 地 具有 沁 要 求 的 人 性质. 于 是 由 和 定理 
4.10, 存在 非 负 向 量 7r 和 9， 使 得 对 所 有 CCR 有 

> ri+$ gi>0, (14.189) 


> |g (x) + or 一 +3 qh (a) <0, 
(14,190) 
Rona, LA (14.190), 整理 后 得 到 
PCD + RAe) + a) I) + oi <0, 
(14.191) 
(14.191) 中 前 两 项 显然 为 零 . 对 于 iET(z) MIELE), 分 别 有 
giz) > 0 Al AE), AE AF CE T(z) MIELE) H r= 和 
g:~ 0, 因此 , (14.187) fi (14.188) Æ, 并 对 所 有 ER”, (14.190) 
化 简 为 


a IgE) se 3 0 
ži Blo a oa; |e, £4) + pan qiħhilæ) <0, 
(14.192) 


显然 , 不 等 式 左 端的 函数 在 x 达到 它 的 无 约束 极 大 值 , 因此 它 的 一 
阶 偏 导数 在 2 为 零 


ag (z) TC at 
ia On; + 24 at; 0, gl, ++, n, 
(14.193) 


于 是 (14.186) 成 立 . 

现在 假设 存在 向 量 p 之 0. 9>0， 使 得 (14.184) 至 (14.188) 成 
ML, 并 候 设 有 一 点 2 满足 (14.181) 和 (14.182)， 因 为 如 是 目的 ， 
(44.182) 可 由 下 式 代 替 ; 


n+ hE) (az) >0, 1=1, «-, p, (14.194) 
> 


分 别 用 相应 的 7% 和 & 乘 (14.,181) 和 (14.194) 中 的 每 个 不 等 式 , 得 
到 
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Sf Sip, AD, NE Vea, 7, 
jall ¢ T 


= On; {=i x 
+3) gi) + 2 qh (2) >0, (14.198) 
SRERF IR. J 


比较 定理 14.9 的 条 件 和 本 节 开 始 时 对 (oP) 假设 的 正则 性 
RHQ), 我 们 断定 存在 一 个 点 具有 所 要 求 的 性 质 。 这 样 , 定理 
14.7 至 定理 14.9 建立 了 映射 4 的 上 半 连 续 性 , 从 而 定理 14.3 的 
EE G) 是 满足 的 .这 就 完全 证 明了 为 求解 相 补 西 规划 所 提出 的 
FEM SEE. 

显然 , 作 一 些 容易 的 修改 后 , RTA OE ABA E 
函数 和 广义 媚 函 数 的 规划 . 另 一 推广 是 通过 对 约束 (14.154) 构 造 
支撑 超 平 面 发 展 起 来 的 , 这 类 似 于 上 一 节 的 Veinott HK. 当然， 
那 时 % 可 以 是 拟 凸 的 而 不 一 定 是 凸 的 . 

也 许 , 刚才 所 述 的 相 补 凸 规划 算法 的 最 重要 应 用 , 在 于 求解 第 
7 章 兽 提 到 的 正 项 式 规划 或 相 补 几何 规划 问题 . 


考虑 问题 
(CGP) min wo (14.196) 
受 限制 于 

P(a@)—-Q(@)<1, i=l, =, m, (14.197) 


其 中 a= (20, Ti, ***s Gn), 了 Q: 是 正 项 式 . 可 以 证 明 ， 这 种 规划 
能 变换 为 “ 相 补 Clog, log)-~ 西 ”规划 (参见 第 6.7 章 )， 其 中 (log, 
log)- 凸 函数 和 《〈log，log)- 四 函数 册 现 在 约束 中 .当然 , 这 种 规划 
也 可 以 变换 为 一 个 等 价 的 相 补 廿 规划 . 

关于 概念 性 方法 的 细节 ， 读 者 可 参考 Avriel2 和 Arvriel、 
Williams *, Dembo"® 已 成 功 地 实现 了 这 个 方法 ， 他 用 割 平面 
算法 去 解 凸 的 子 问题 或 (iog，log )- 凸 的 子 问题 ， 完 整 的 算法 叙述 
在 4Avriel、Dembo、Passy[3] 中， 在 练习 14.M 中 将 看 到 ， 用 相 补 
凸 规划 方法 还 能 处 理 更 一 般 的 问题 , 它们 包含 正 项 式 的 某 种 函数 ， 
而 不 是 (14.197) 中 正 项 式 之 差 , 
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iż. A. 


14.B. 


14.C. 


14.D. 


i4.E. 
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继续 做 例题 14.1.3, fA Griffith Stowart 方法 进行 两 次 以 上 的 迭代 ， 
并 画 出 子 问题 的 约束 ， 解析 地 计算 原来 所 题 的 最 优 解 ， 并 观察 收 伍 
于 这 个 解 的 情况 。 

画册 Pletcher 的 超 方 体 法 的 框图 ， 并 对 下 面 的 问题 至 少 进行 两 次 选 
FR, 以 说 明 这 个 方法 : 


o a 4 
minf@)= (a | 5) tor (14.198) 
受 限制 于 
a +20>2, (14.199) 
a>0, 2>0, (14.200) 
按照 算法 的 需要 自己 选择 参数 . 


现在 来 看 一 下 如 何 对 非 线性 规划 算法 构造 试验 问题 ， ERRA Æ 
先 已 知 的 。 我 们 将 利用 Rosen, Suzakio 提出 的 构造 法 ， 假设 要 求 
解 问题 
min f(z) ={x) +e, xe RK (14.201) 

受 限制 于 

TE =p) to 0 t=], e, m, (14.202) 
HP o A ha, …， Vn BERS EY FY AO A 
取 任意 2° ER 为 预先 决定 的 最 优 解 ， 并 选取 X* ER”, A* 20 作为 
相应 的 Kuhn-Tucker RF, 选取 po ;一 1,…, m, 使 得 


ge") =0, E>, (14.203) 
gio") 0, FASO, (14.204) 

用 下 式 计 算 向 量 c: 
o$ MTh") vola"), (14.205) 


证 明 参 数 5 和 < 的 这 种 选择 确实 保证 了 zx* 是 所 希望 的 最 优 解 。 指 
E g RIDER y HUER T RAEE 使 得 这 个 构 
造 方 法 仍然 可 用 . 

用 上 题 的 方法 构造 一 个 具有 线性 约束 的 非 二 次 滤 验 问题 ， 对 它 应 用 
既 约 梯度 法 进行 几 次 迭代 . 

Kr ue (14.89) #1 (14.90) 2 ala (NEP) MERE Kuhn-Tucker TARE 


14.F. 


14.G. 


14.K. 


14. 工 . 


14.M. 


R. 

画 出 GRG 方法 的 框图 ， 用 练习 14.C 的 Rosen-Snzuki 方法 构造 一 
个 两 变量 非 线性 约束 试验 问题 , 应 用 GRG 方法 解 这 问题 , 并 画 出 最 
优化 的 行程 ， 

很 设 我 们 求 单 变 量 非 线性 方程 7 了 (ez)=0 的 解 ， 其 中 是 一 个 严格 递 
增 的 可 微 回 函数， 把 这 个 问题 转化 为 适 于 用 割 平面 法 求解 的 非 线性 
规划 问题 。 试 找 出 牢 平 面 法 所 产生 的 点 与 Newton 法 直接 用 于 方程 
求解 问题 时 所 生成 的 点 之 间 的 关系 ， 


， 画 出 例 14.3.1 中 非 线 性 规划 的 图 , 用 视察 法 求 最 优 解 ， 画 出 增加 的 


割 平 面 ,并 注意 算法 的 进程 . 

AASB ET A 14.3.1 的 问题 ， 人 至 少 进行 两 次 增加 平面 的 
aR. 

对 于 所 ,加 - 凸 规划 导出 “市 曲面 "方法 .用 log, log)- 凸 的 几何 规 
划 问 题 求解 来 说 明 你 的 方法 . 

第 14.4 节 的 相 补 凸 规划 方法 , 可 以 看 作 是 “ 割 平面 ”方法 (为 什么 ?). 
把 正文 中 提出 的 方法 修改 为 一 种 “支撑 超 平面 ”方法 。 对 例题 到.4. 
中 的 问题 试 一 下 你 的 方法 。 

对 规划 中 的 函数 和 变量 作 必要 的 变换 。 并 在 需要 时 增加 附加 变量 和 
R, 从 而 把 相 补 几何 规划 叙述 为 相 补 凸 规划 ， 先 把 侈 14.4- 卫 中 的 
问题 写成 相 补 刀 何 规划 , 然后 用 你 的 推导 再 把 它 写 成 相 补 凸 规划 , 注 
意 , 近似 规划 是 原来 变量 的 普通 几何 ( 正 项 式 ) 规 划 - 


给 定 非 线性 规划 
(AP) min D we Te fo). ig (14.206) 
受 限 制 于 


> vn PeDe | 1 k=l, e, m, (14.207) 


其 中 Py. Qun Bex 是 正 项 式 ， AWF EL, k=0, -y M, Wie, Oy 是 
给 定 的 正 数 ， 证 明 用 增加 附加 变量 和 约束 ，(AP) 可 以 转化 为 等 价 的 
思 补 几何 规划 。 和 叙述 近似 的 元 何 规划 并 尝试 消 去 增加 的 附加 变量 . 


#83 


10. 


11. 


参考 文献 


ABADE, J., and J. CARPENTIER, “Generalization of the Wolfe Reduced Gra- 
dient Method to the Case of Nonlinear Constraints,” in Optimization, R. 
Fletcher (Ed.), Academic Press, London, 1969. 


AVRIEL, M., “Methods for Solving Signomial and Reverse Convex Program- 
ming Problems,” in Optimization and Design, M. Avriel, M. J. Rijckaert, and 
D, J, Wilde (Eds.), Prentice-Hall, Englewood Cliffs, NJ., 1973. 


AVRIEL, M., R. S. DEMBO, and U., Passy, “Solution of Generalized Geometric 
Programs,” Int, J. Numer. Methods in Engineering, 9, 149-168 (1975). 


AVRIEL, M., and A. C. WILLIAMS, “Complementary Convex Programming,” 
Mobil R & D Corp. Central Research Diy. Progress Memorandum, Princeton, 
N.J., May 1968. 


AVRIEL, M., and A. C. WILLIAMS, “Complementary Geometric Programming,” 
SIAM J. Appl. Math., 19, 125-141 (1970). 


AvRIEL, M., and A. C. WILLIAMS, “An Extension of Geometric Programming 
with Applications in Engineering Optimization,” J. Eng. Math., 5, 187-194 
(1971). 


Beace, E. M. L., “Numerical Methods,” in Nonlinear Programming, J. Abadie 
(Ed), North-Holland Publishing Co., Amsterdam, 1967. 


Bears, E. M. L., “Nonlinear Optimization by Simplex-like Methods,” in 
Optimization, R. Fletcher (Ed.), Academic Press, London, 1969. 


BERGE, C., Topological Spaces, Oliver & Boyd Ltd., Edinburgh, 1963. 


CHENEY, E. W., and A. A. GOLDSTEIN, “Newton’s Method for Convex Pro- 
gramming. and Tchebycheff Approximation,” Numer. Maik., 1, 253-268 
(1959). 


COLVILLE, A. R., “A Comparative Study on Nonlinear Programming Codes,” 
Proceedings of the Princeton Symposium on Mathematical Programming, H. W. 
Kuhn (Ed.), Princeton University Press, Princeton, N.J., 1970. 


DaniziG, G. B., Linear Programming and Extensions, Princeton University 
Press, Princeton, N.J., 1963. 


DANTZIG, G. B, J. FOLKMAN, and:N, Z, SHAPIRO, “On the Continuity of the 
Minimum Set of a Continuous Function,” J. Math. Anal. & Appl, 17, 519-548 
(1967), ; 


Demno, R. S., “Solution of Complementary Geometric Programming Prob- 
lems,” M.Sc. thesis, Technion, Israel Institute of Technology, Haifa, 1972. 


Eaves, B. C., and W. I. ZANGWILL, “Generalized Cutting Plane Algorithms,” 
SIAM J. Control, 9, 529-542 (1971). 


FLETCHER, R., “A General Quadratic Programming Algorithm, J. Inst. Math. 
Appl., 7, 76-91 (1971). 7 


gs4 


FLetcner, R., “An Algorithm for Solving Linearly Constrained Optimization 
Problems,” Math. Prog., 2, 133-165 (1972). 


GOLDFELD, $. M., R. E. Quanot, and H. F. Trotter, “Maximization by 
Quadratic Hill-Climbing,” Econometrica, 34, 541-551 (1966), 


Grirrity, R. E., and R. A. Stewart, “A Nonlinear Programming Technique 
for the Optimization of Continuous Processing Systems,” Management Science, 
7, 379-392 (1961), 


KELLEY, J. £., “The Cutting-Plane Method for Solving Convex Programs,” 
J. SIAM, 8, 703-712 (1960). 


LEVENBERG, K. A., “A Method for the Solution of Certain Nonlinear Problems 
in Least Squares,” Quart. App!. Math., 2, 164-168 (1944). 


Levitin, E. S., and B. T. Poryak, “Constrained Minimization Methods,” 
USSR Comp. Math. & Math, Phys., 6, 5, 1-50 (1966). 


Marquarpt, D. W., “An Algorithm for Least-Squares Estimation of Non- 
linear Parameters,” J. SIAM, 11, 431-441 (1963): 


McCormick, G. P., “Anti-zig-zagging by Bending,” Management Science, 15, 
315-320 (1969). 


McCormick, G. P., “The Variable Reduction Method for Nonlinear Program- 
ming,” Management Science, 17, 146-160 (1970). 


Pearson, J. D., “Variable Metric Methods of Minimisation,” Computer J., 12, 
171-178 (1969). 


Powe, M. J. D., “A New Algorithm for Unconstrained Minimization,” in 
Nonlinear Programming, J. B. Rosen, O. L. Mangasarian, and K. Ritter (Eds), 
Academic Press, New York, 1970. 


PoweLL, M.J.D., “Convergence Properties of a Class of Minimization 
Algorithms,” Report C.S.8. 8, A.E.R.E. Harwell, United Kingdom, April 
1974, 


Rosen, J, B., “Iterative Solution of Nonlinear Optimal Control Problems,” 
SIAM J. Control, 4, 223-244 (1966). 


Rosen, J. B., and S. Suzuki, “Construction of Nonlinear Programming Test 
Problems,” Comm. of the ACM, B, 113 (1965). 


Torkis, D. M., “Cutting-Plane Methods without Nested Constraint Sets,” 
Operations Research, 18, 404-413 (1970). 


VEINOTT, A. F., “The Supporting Hyperplane Method for Unimodal Program- 
ming,” Operations Research, 15, 147-152 (1967). 


WILDE, D. J., “Jacobians in Constrained Nonlinear Optimization,” Opera- 
tions Research, 13, 848-856 (1965). 


WIDE, D. J., and C. S. BEIGHTLER, Foundations of Optimization, Prentices 
Haii, Englewood Cliffs, N.J., 1967. 


WILLIAMS, A. C., “Marginal Values in Linear Programmiag,” J. SIAM, 114, 
82-94 (1963). 


Ai. 


36. 


37. 


38. 


39. 


40. 


4). 


WrLson, R. B., “A Simplicial Algorithm for Concave Programming,” Doctoral 
dissertation, Harvard University, Cambridge, Mass., 1963. 


Worre, P., “Methods of Nonlinear Programming,” in Recent Advances in 
Mathematical Programming, R. L. Graves and P. Wolfe (Eds.), McGraw-Hill: 
Book Co., New York, 1963. 


Wo re, P., “Methods of Nonlinear Programming,” in Nonlinear Programming, 
J. Abadie (Ed.), North-Holland Publishing Co., Amsterdam, 1967. 

Wore, P., “Convergence Theory in Nonlinear Programming,” in Integer and 
Nonlinear Programming, J. Abadie (Ed.}, North-Holland Publishing Co., 
Amsterdam, 1970, 

ZANGWILL, W. I, “Convergence Conditions for Nonlinear Programming 
Algorithms,” Management Science, 16, 1-13 (1969), 

ZANGWILL, W. L, Nonlinear Programming: A Unified Approach, Prentice-Hall, 
Englewood Cliffs, N.J., 1969, 


é 


引 


《上 "表示 上 册页 码 , “FR 表示 下 册页 码 ) 


Broyden 1965 方法 下 132, F 138 

Broyden-Fletcher-Shanno 方法 下 
120, F 138. 

Broyden = sake 下 119, 下 136， 
下 154 

Chazan-Miranker 平行 方法 下 68, 
F72 

Cholesky 分 解 下 139, 下 142 

Curry 规则 F79, 下 Lid 

Davidon-Fletcher-Powell 方法 下 
116, P121, PF 144, F 144, F 
153, 下 261 

Davies 梯度 投影 法 下 238, 下 244 

Davies Swann-Gampey 方法 F 40, 
下 71 下 210 

Farkas 引 理 上 37, 66, £77, 
下 232 

Fibonacci 方法 下 18 

了 bonaeoi 数 下 13 

Fletcher 二 次 规划 方法 下 224 


Fletcher-Reeves 方法 F 91, F 105, 
“F 121, 下 123 
Fletcher 恰当 惩罚 函数 方法 下 182 


Fritz John 条 件 上 30, 上 54 

Goldfarb 梯度 投影 方法 F ae 
下 228, 下 242 

Goldstein-Price 方法 F83, 下 104, 
下 136, F 188 


Broyden’s 1965 method `. 
Broyden-Fletcher-Shanno method 


Broyden’s subfamily of matrices 
Chazan-Miranker parallel method - 


Cholesky factorization ` 
Curry rule 
Davidon-Fletcher-Powell method 


Davies’ gradient projection meth. å 
Davies-Swann-Campey method 


Farkas lemma 


Fibonacci method 

Fibonacei numbers 

Fletcher’s quadratic programming 
method 

Fietcher-Reaves method 


Fieteher’s exact penalty function 
method 

Fritz John conditions 

Goldfarb’s gradient projection me- 
thod 

Goldstein-Price method 


Griffth-Stewart 近似 规划 方法 
下 249, F 282 

Hesse ME 上 10, 上 87, 上 150, F65, 
下 83, F95, F128, 下 138 

Holder 不 等 式 上 189 

Ch, p- AR 上 156, 上 163, 上 
169, £173, Ł 189 

A, $)~ OHRI 上 193, 下 283 

Huang Rf F113, F 116, 下 
117, F 125, F 136, F 152 

Jacobson-Oksman 方法 下 147, 下 
149 

Kelley-Cheney-Goldstein MFH 
法 下 266 

Kuhn-Tucker 条 件 L 88, 上 91, 
£127, £129, Ł 146, F171, 
-F 193, F241, 下 254, F 262, 下 
282 

Kuhn-Tucker 3 上 12% 

Kuhn-Tucker 点 下 273 

Kuhn-Tocker 乘 子 E 42, F 273, 
下 282 

Lagrange 三 重组 上 39, 下 242 

Lagrange 方法 上 15, 上 24 

Lagrange 式 E17, E27, E119, 
£120, 上 121, 上 125, 上 178, 
£181, £201, 下 171, 下 180; 
下 183, 下 185, 下 198 


Lagrange RF 上 17, 上 119, 上 . 


121, F171, F180, 下 183, 下 
185, 下 188, 下 221, 下 225,. 下 

”227, 下 242 

Legendre 变换 上 104 


Levitin-Polyak 梯度 投影 能 行 方 向 . 


法 下 243 
388 


Gri ffith-Stewart approximation 
programming method 
Hessian matrix 


Hétder inequality 
th, @)-convex function 


(h, $)-convex program 
Huang’s family of matrices 


Jacobson-Oksman method 


Kelley-Cheney-Goldstein cutting 
plane method 
Kuhn-Tueker Condition 


Kuhn-Tacker function 
Kubn-Tucker Point 
Kuhn-Tucker multiplier 


Lagrange triple 
Lagrange method 
Lagrangian 


Lagrange multipliers 


Legendre transformation 
Levitin-Polyak gradient projection 
feasible direction method 


Murtagh-Sergent 方法 下 121, 下 
155, 下 222, 下 243 

Newton 方向 下 83, 下 104, F 109 

Newton tt F 3, F 5, F 27, F74, 
F 104, F 109, F128, F 196, 
下 263, F 283 

nP RG EEF 102 


2- 步 超 线性 收敛 速率 下 102 


Oren 变 尺度 方法 下 153 
Polak-Ribiére-Polyak 方法 下 94 
Powell RSH 下 154 
Robinson FH 下 241, F 244 
Rosen-Kreuser 方法 下 240, F 244 
Rosen 梯度 投影 法 下 222 
r-rih% 上 156, Ł 163, Ł 173 
Sherman-Morrison 公式 F 132, 
下 141 
Slater 条 件 上 92, +143, 下 180 
zf"- 齐 m 次 函数 下 146 


Zangwill 方法 下 59, F71 
Zoutendijk EREE 下 153 


Zoutendijk 能 行 方 向 法 下 230, 下 
244 


一 个 集合 的 数 积 上 61 
一 阶 必要 条 件 上 25, F216 


二 次 收敛 速率 下 6 


Mortagh-Sargent method 


Newton direction 
Newton’s method 


n-step quadratic rate of conver- 
gence 

n-step superlinear rate of conver- 
gence 

Oren’s variable metric method 

Polak-Ribiére-Polyak method 

Powell’s variable metric method 

Robinson’s method 

Rosen-Kreuser method 

Rosen’s gradient projection method 

r—convex function 


Sherman-Morrison formula 


Slater’s condition 

x*-homogencous function of degree 
= 

Zangwill’s method 

Zoutendijk’s variable metric me- 
thod 

Zoutendijk’s feasible direction me- 
thod 


划 


Scalar multiple of a set 
First-order necessary conditions 


划 
Quadratic convergence rate 


289. 


二 次 规划 E177, 上 202, 下 184, 
F 185, K 186, 下 224, 下 233, 
下 254 

二 次 终结 下 条， 下 65, 下 88, 下 
91, F 105, F110, F126, F 
133, 下 134, F 135, K 153, F 
224 

TAREHE F9, F28, F45, 
下 71, F 105, F 136, F 155 

二 阶 约 束 蝇 性 E43, 上 56 


下 283 


一 一 


三 次 通 近 方法 下 10, 下 136 
PRESS ”上 165， 上 169， 上 
173, 下 276 

FRR 上 68， 上 123 

下 降 方 法 下 87, F104, F116, 
.下 221 . 

上 半 连 续 映 射 ” 下 276 

EZ 上 67, 上 102, + 192- 
广义 Lagrange 式 下 192, 下 196 
广义 Lagrange HF | 42 

广义 四 规划 E145, 164, F 281 
广义 上 既 约 梯度 法 “下 262 


四 


不 用 导数 的 Powell 法 ”下 46, 下 
141, 下 199 
不 用 导数 的 变 尺 度 方法 F10. 


不 动 点 F4 
299 


Quadratie program 


Quadratic termination 


Quadratic approximation method 


Second-Order constraint qualifica- 
fion 


Geometrio program 


RY 


Cubic-approximation method 
Lower semicontinuous mapping 


Hypograph 
Descent method — 


Upper semicontinuous mapping 

Epigraph i l 

Generalized Lagrangian ` 

Generalized Larange multiplier 

Generalized convex program 

Generalized reduced gradient me- 
thod 


RI 


Powell’s method without deriva- 
tives 

Variable metric method without 
derivatives 

Fixed point 


TARRA 上 9 

无 参数 SUMT “F173 

无 参数 惩罚 法 下 172 

区 间 缩 小 下 13 

互补 性 问题 上 202 

支撑 函数 上 103 

支撑 集 上 78, 上 102 

支撑 超 平面 法 ”下 270, 下 281, F 
283 

双重 非 线性 函数 E149 

PADA 144, b 172 (上 
144) 

RADAR 下 271 

反映 步骤 F32 

分 批 搜索 法 下 21, F 29 

分 离 定 理 .上 63, 上 65 

分 离 起 平面 上 62 

中 心 方法 下 174 

内 部 惩 到 函数 下 166, 下 167 

水 平 集 上 138, 上 165, 下 61, F95, 
下 166 


. T 五 
正 齐 次 函数 £79, 上 96, 上 103， 
E134 
TRE 上 3, 上 54 
EMA 上 158, Ł 189, 上 203, 下 
281 . 
正规 规划 E119, E184 
正常 四 函数 上 183, 下 265 
平行 切线 法 F105 
平行 处 理 单元 F20, 下 63 
切 锥 E34, E54 
可 分 离 函 数 上 134, 上 182, 下 25 
ERR 下 143 , 


Uneonstrained oxtremä 

SUMT without parameters 
Parameter-free penalty method 
Interval reducfion 
Complementarity problem 
Support function 

Support set 

Supporting hyperplane method 


Bi-nonlinear function 
Pseudoconvex (concave) funetion 


Reverse convex program 
Reflection step 

Block search method 
Separation theorem 
Separating hyperplane 
Centres method 

Interior penalty method 
Level set 


划 


Positively homogeneous funetion 


Positively normal cone 
Posynomial 


Normal program 
Proper concave function 
Parallel tangents method 
Parallel processing units 
Cone of tangents 
Separable function 
dominant degree method 


B91 


代价 函数 上 120 
代数 规划 上 203 
fit 上 61, F32 
凸 (上 四) 共 暂 函数 上 106 (上 183) 


EYE] 上 90, 上 191, 下 104, 下 
180, “F 268, F 273 

HAG 上 60 

凸 函数 上 67, 上 79, 上 83, 上 85， 
上 87, 上 91, £96, 上 97, 上 102, 
£120, 上 182, 下 127, 下 143, F 
221 

Mammy b 73 

Me .上 59, 上 144, 172 

WAX 上 68, 上 91, 上 94, 上 120, 
+ 163, 上 193 

加 边 行列 式 上 142 

对 偶 性 间 孙 ”上 1409, 上 118 

对 偶 性 .上 99, £179, 下 196 

对 偶 规划 上 108, 上 179, 上 183, 
+192, 上 199, 上 202, 上 203, 下 
171 

对 称 Fibonacci 方法 F17, F 29 

MARIE F135, F140 

IKRE 146 

XJR 上 51 E146 

边界 带 F208 

目标 函数 上 1 

外 部 惩罚 法 下 161, 下 199 

外 部 惩罚 函数 F 160, F 162 


AeA 上 144, 上 173 
HRE E74 
FRB £74, F4 F46, F211 


292 


Cost fanctiori 

Algebraic Program 

Convex hull 

Convex (concave) conjugate fun- 
ction 

Convex program 


Convex combination 
Convex function 


Closure of a convex function 
Convex set 
Concave function 


Bordered determinant 
duality gap 

duality 

dual program 


Symmetric Fibonacci method 
Symmetric rank-one method 
Symmetric gradient 

games of strategy 

boundary zone 

Objective function 

exterior penalty method 
exterior penalty function 


¥ 


Psendo linear function 
affine hull 
aifine set 


次 正定 矩阵 F150, +152, 上 172 

次 梯度 上 81, £105, LIU. 下 
266 

次 微分 上 81, 上 183, 下 266 

次 -下 BR £153 

有 效 区 域 上 68 

曲线 拟 售 上 1 

SEMA F36, 下 69 

压缩 (映射 ) 下 4 

压缩 步骤 下 33 

扩充 Lagrange 式 下 180, 下 181 

扩展 步 又 F32 

SEMI) F42, 5 44, F 55, F 
71, F 88, F 110, F 124, F 236 

Apa 上 101. 上 161, } 179, 
E197 

AGPESA E60, F211, F 
267 (上 60) 

闭 巴 函数 E73, £97, 上 105 

RIF 下 9 i 

划 界 方法 F10, F28 


过 程 设计 上 3 
SHRIEK 下 8, 下 12 
ie Seas 下 6 

两 时 性 搜索 方法 F29 
约束 上 14 


约束 品 人 性 上 33, 上 43, b 44, E 
54, 上 56 


七 
Wich CED) we + 138, E 163, 上 
171 (£139) 
HEKA E 171 
al Newton 法 下 109, F128, F 
145, "K 155, 下 253 


Positive subdsfinite matrix 
Subgradient 


Subdifferential 

sub-® function 

effective domain 

curve fitting 

alternating directions method 
contractor 

contraction step 

extended Lagrangian 
expansion step 

conjugate directions 


conjugate function 
closed (open) half space 


closed convex function 

bracketing 

bracketing method 

process design 

polynomial approximation method 
convergence rate 

simultaneous search method 
constraint 

constraint qualification 


划 


quasiconvex (concave) function 


quasimonotonic function 
quasi-Newton method 


293 


扰动 上 107, £191 - 

拢 动 问题 
+ 上 179 

扰动 函数 
上 134, Ł 180, F 201 

极 小 ~ 极 大 上 5 

极 值 , RAR 上 10, 上 23 

Re 上 37 

序列 无 约束 极 小 化 方法 he 170, 
F 180 

均值 党 数 156 . 

严格 下 降 方法 下 94, 下 98 

FLR% 上 69, E87, -E 143, 
£179, F12, F 65, F95 

MHo% 145, 上 472, F 
59 

Po Roe E143, E173 

PR 上 9, E140, E179 

Ems E153 ; 

近似 规划 下 250 

近似 规划 方法 下 249 


花边 下 80 下 237 

步 长 下 231, 下 234, 下 2363… 
LOA 

松 台 变量 E127, | 194; + 197, 

下 200 

定位 问题 上 2 

实心 集 上 142 

单纯 形 下 32, F 207 - 

单纯 形 法 下 31, 下 69, 下 242 

单项 式 上 190 

HERR 下 13 - 

变 尺度 法 下 109, 下 144 


£120, 上 126, Ł 130,. 


上 110, £120, 上 126, 


perturbation 
perturbed. problem 


perturbation function 


min-max 

extremum 

polar cone 

sequential unconstrained minimiza- 
tion Technique (SUMT) 

mean value function 

strictly descent method 

strictly convex function 


strictly pseudoconvex function . 


strictly quasiconvex function 
strict minimum 

connecting function 
approximating program 
approximation programming met- 
_ hod 

hemastitching 

step length 


划 
slack variable 


location problem 

solid set 

simplex 

simplex method 
monomial 

unimodal function 
variable metric method 


顶点 .上 96 

R2 Newton 公式 下 76 . 

限 步 Newton 法 下 76, F 103 

ARARA E155, E164 

弧 式 连通 集 E153, F175 

RIE oe ”上 68, 上 73 

非 线性 分 式 函 数 上 149 

非 线 性 约束 F197, 下 237 

非 线性 规划 的 试验 问题 下 282 

非 基 本 变量 下 257 

JẸ Euclid # F79, F 234 

经 济 解释 L101, 上 134 

线性 化 锥 E27, 上 37 

线性 分 式 函 数 EII 

线性 约束 E199, F197, F210, 
F 287, F 253, 下 256, 下 273 

REA Fô, P100 

线性 极 小 极 大 规划 ”上 202 

线性 规划 上 97, £99, 上 130, 上 
182, 下 236, 下 250 

Atita 上 187, .上 202 

线性 搜索 PAT. F104, F105, 
下 126, F142, 下 217 


HL 


Femme £103, | 134 

相对 内 部 上 ?4 

相 补 几何 规划 下 281, 下 283 

相 补 凸 规划 下 271, 下 283 

相 补 DFP 公式 ”下 138, 下 154 

相 容 规划 上 109, 上 201 

标准 凸 规划 上 307， 上 126， 下 
201 

恰当 惩罚 函数 F 175, 下 181 

活动 分 析 E1832 


extreme potnt 

limited-step Newton formula 
limited-step Newton method 
arewise convex function 
arcwise connected set 

improper convex function 
nonlinear fractional function 
nonlinear constraint 

test problem nonlinear program 
nhonbasic variable 
non-Kuclidean norm 

economic interpretation 
linearizing cone 

linear fractional function 


linear constraint 


linear convergence rate 
linear minimax program 
linear program 


linear recourse function 
Hnear search 


划 

indicator function 

relative interior 

complementary geometrio program 
complementary conyex program 


` complementary DFP formula 


consistent program 
standard convex program . 


exact penalty function 
activity analysis 


295 


SAk +157, F104 

点 式 上 确 界 上 70 

AAE} 上 164, 上 165, 上 173, 
下 276 

结合 函数 上 134 

有 既 约 梯度 下 257 

BEURRE E 下 256 


复合 形 法 下 307, 下 242 


倒数 函数 ”上 149 
损失 函数 下 161 
校正 矩阵 FF 111, F121 


4K 1 BE XSRE 下 130, F152 
FR 2 RIESE 下 137, 7 152 
积极 约束 ”下 213, 下 217, F236, 


下 255 


FEF FE F188, 下 196, F 201 


乘 子 函数 F180, 下 181 


能 行 下 降 方 向 下 230, F 243 


能 行 方向 上 36, F243 
能 行 集 上 236, F160 
Mame 上 123 
矩形 距离 E2 
RAR 上 108 


WBS 上 89, F131, F183 
BHAE E 108, + 201 


$ Lagrange x 上 30 


偿付 函数 上 182 


隐 式 约束 E126, 上 131, F207 


隐 函 数 定理 下 15 
把 机 线性 规划 


a6 


上 181, 上 203 
WARM 下 172, F198 


+ 


一 


eurved valley function 
pointwise supremum 
point-to-set mapping 


convolution function 
reduced gradient 
reduced gradient method 
complex method 


划 


reciprocal function 

loss function 

correction matrix 
rank-one correction matrix 
rank-two correction matrix 
active constraint 


multiplier method 
multiplier function 
feasible descent direction 
feasible direction 
feasible set 

partial conjugate function 
rectangular distance 
ptimal program 
stationary point 

weak duality theorem 
weak Lagrangian 


划 


recourse function 
implicit constraint 
implicit function theorem 
stochastic linear prograin 
mixed peaalty method 


梯度 投影 方法 F210 

梯度 相关 序列 F103 

旋转 方向 法 下 35, 下 70, 下 208, 
下 242 

AE Bt 下 257 

黄金 分 批 搜 索 法 F2 

黄金 分 割 法 下 19 

勘探 阶段 下 37 

勘探 移动 ”下 34, 下 37 


十 
割 平面 下 268 
割 平面 法 下 265, 下 283 
BRK F119, 下 129, 下 135， 


下 253 

割 线 法 下 7, 下 27, F130 

集合 的 机 上 人 

强 对 偶 性 定理 E13, 上 187, 上 
201 

强迫 函数 ”下 102 

强 拟 凸 画 数 上 143, 下 60, 下 61 

强 相 容 规划 上 92, 上 117, 上 129. 
上 143, Ł 201, F170, F180, 
下 272 

最 优 性 必要 条 件 上 10, 上 25, 上 
43, 上 91, 上 178 

最 优 性 充分 条 件 上 10, 上 46, 上 
55, 上 91, 上 178, 下 197 

最 速 下 降 方 向 下 83， 下 104, F 
109, 下 134 

最 速 下 降 法 下 36, 6 78, F100, 
下 103, 下 104, 下 109, 下 261 

最 速 能 行 于 降 方向 下 231, 下 232, 
人 下 243 


超 方 体 法 F253, 下 282 


gradient projection method 
gradient related sequence 
rotating direction method 


basic variable 
golden block search method 
golden section method 


exploratory stage 
exploratory move 


划 
cutting plane 
cutting plane method 
secant relation 
secant method 
sum of sets 
strong duality theorem 
forcing function 
strongly quasiconvex function 
strongly consistent program 
necessary conditions for optimality 
sufficient conditions for optimality 
steepest descent direction 
steepest descent method 


steepest feasible descent direction 


hypercubes method 


HREM Fé, 下 85, 686, superlinear convergence ralé 
FP 127 


超 球 上 60 hypersphere 
十 = 划 
RSE 下 167 barrier function 
锯齿 现象 ”下 234, 下 261 Zigzagging 
数 乘 运 算 不 变性 F153 invariance under scaling 
十 办 一 一 十 六 划 
模式 移动 下 35 pattern move 
模式 搜索 法 F34, F70 pattern search method 


稳定 规划 E, E 180, E 184, stable program 
E 186 i 


算术 几何 不 等 式 E96, £195 arithemetic-geometric inequality 
ey ERIK F159, F172 augmented objective function 
增 广 Jacobi 矩阵 E22 augmented Jacobian matrix 


增 广 Lagrange 式 f 187, 下 201 augmented Lagrangian 

BA 上 48, tA, t124, 上 181, saddlepoint 
上 201 

整体 极 大 {小 ) 值 £100 bh 10, 上 global maximum (minimum) 
143, 上 144, | 164, E 166, F 
221) 


298 


